📝 我的笔记

还没有笔记

选中页面文字后点击「高亮」按钮添加

1.4_预备知识_线性代数复习.ZH解释

📜 原文
📖 逐步解释
∑ 公式拆解
💡 数值示例
⚠️ 易错点
📝 总结
🎯 存在目的
🧠 直觉心智模型
💭 直观想象

1内容

好的,我将根据您提供的详细工作流程,对您输入的文本内容进行逐段、逐句、逐个公式的超详细解释。我将严格遵循您要求的结构,确保内容完整、不遗漏、不截断,并一次性在单个回复中提供所有解释。

1. n次单位根

11.1 n次单位根的定义与性质

📜 [原文1]

注意 $\mathbb{R}$$\mathbb{C}$ 之间的区别:对于 $n \in \mathbb{N}$

(i) 每个非零复数 $z$ 恰好有 $n$ 个不同的 $n$ 次方根。

(ii) 如果 $n$ 是奇数,则每个实数 $t$ 恰好有一个实数 $n$ 次方根。

(iii) 如果 $n$ 是偶数,则实数 $t$ 如果 $t<0$ 则没有实数 $n$ 次方根;如果 $t=0$ 则恰好有一个实数 $n$ 次方根;如果 $t>0$ 则恰好有两个实数 $n$ 次方根 $\pm s$

我们可以将上述关于 $n$ 次方根的讨论应用于复数 $1=\cos 0+i \sin 0$

定义 3.4.6. 对于 $n \in \mathbb{N}$,定义 $\mu_{n}$,即 $n$ 次单位根,为集合

$$ \mu_{n}=\left\{\zeta \in \mathbb{C}: \zeta^{n}=1\right\} $$

特别是,$\mu_{n} \subseteq U(1)$,即每个 $n$ 次单位根的绝对值都为 1。

📖 [逐步解释]

这部分内容首先对比了在实数$\mathbb{R}$)和复数$\mathbb{C}$)域中开 $n$ 次方的不同情况,然后引出了一个在复数域中非常重要的概念——n次单位根

  1. 开篇对比:作者开宗明义,提醒读者注意实数复数在开方运算上的根本区别。这是理解后续内容的基础。
    • 复数域中,问题总是很“完美”。一个非零的复数,不管它是什么,开 $n$ 次方总能得到不多不少正好 $n$ 个根。这体现了复数域的代数完备性
    • 实数域中,情况就复杂得多,需要分类讨论。
    • $n$ 是奇数时(如开 3 次方,5 次方),任何实数(正、负、零)都有且仅有一个实数根。例如,8 的立方根是 2,-8 的立方根是 -2。
    • $n$ 是偶数时(如开 2 次方,4 次方),情况更复杂:
    • 负数没有实数偶次方根(例如 $\sqrt{-1}$实数范围内无解)。
    • 零的任何次方根都只有零这一个。
    • 正数则有两个实数偶次方根,它们互为相反数(例如 4 的平方根是 $\pm 2$)。
  2. 引出主题:在铺垫了这些背景之后,作者将讨论的焦点转向一个特殊的开方运算:求复数 1 的 $n$ 次方根。这是一个核心例子,因为它具有非常优美的结构。作者特意将 1 写成复数极坐标形式 $1 = \cos 0 + i \sin 0$,这是为了方便后续使用棣莫弗定理进行开方运算。
  3. 定义 n次单位根
    • 符号 $\mu_{n}$ 是专门用来表示所有 $n$单位根的集合。希腊字母 $\mu$ (mu) 在这里被用作这个特定集合的符号。
    • 这个集合的定义是数学语言的精确描述:它包含所有那些属于复数$\zeta \in \mathbb{C}$)并且满足方程 $\zeta^n = 1$ 的数 $\zeta$
    • 通俗地讲,一个数如果它的 $n$ 次方等于 1,那么这个数就是一个 n次单位根
  4. n次单位根的性质
    • 作者立即指出了一个重要性质:$\mu_{n} \subseteq U(1)$
    • $U(1)$单位圆群的符号,代表复平面上所有绝对值为 1 的复数组成的集合。这些数可以写成 $e^{i\theta} = \cos\theta + i\sin\theta$ 的形式,它们构成了一个乘法
    • $\mu_{n} \subseteq U(1)$ 的意思是,所有 $n$单位根都在单位圆上。
    • 这个结论的推导很简单:如果 $\zeta^n = 1$,那么我们对等式两边取绝对值,得到 $|\zeta^n| = |1|$。根据复数绝对值的性质,$|\zeta^n| = |\zeta|^n$,而 $|1| = 1$。所以我们有 $|\zeta|^n = 1$。因为 $|\zeta|$ 是一个非负实数,唯一能满足这个方程的解就是 $|\zeta| = 1$。这就证明了所有 $n$单位根的绝对值都为 1,即它们都位于复平面单位圆上。
∑ [公式拆解]

公式:

$$ \mu_{n}=\left\{\zeta \in \mathbb{C}: \zeta^{n}=1\right\} $$

  • $\mu_{n}$:这是本段定义的核心符号,表示 "所有 n次单位根 组成的集合"。下标 $n$ 指明是开 $n$ 次方。
  • $\{$...$\}$:集合的标准表示法,花括号内描述了集合的元素。
  • $\zeta$:(Zeta) 一个希腊字母,在这里用作一个变量,代表集合中的一个元素,即一个复数
  • $\in$:属于符号,表示 "是...的元素"。$\zeta \in \mathbb{C}$ 意味着 "$\zeta$ 是一个复数"。
  • $\mathbb{C}$:全体复数的集合。
  • $:$:冒号,读作 "使得" 或 "满足",它后面是元素必须遵守的条件。
  • $\zeta^n=1$:这就是元素 $\zeta$ 必须满足的条件。它是一个代数方程,意思是 "$\zeta$$n$ 次方等于 1"。

整个公式的推导和理解:

这个公式是一个通过“描述法”来定义集合的例子。它精确地说明了要成为 $\mu_n$ 集合的一员,需要满足两个条件:

  1. 你必须是一个复数
  2. 你的 $n$ 次方必须等于 1。

例如,对于 $\mu_4$ (4次单位根的集合):

  • $1$ 是一个元素,因为 $1 \in \mathbb{C}$$1^4 = 1$
  • $-1$ 是一个元素,因为 $-1 \in \mathbb{C}$$(-1)^4 = 1$
  • $i$ 是一个元素,因为 $i \in \mathbb{C}$$i^4 = (i^2)^2 = (-1)^2 = 1$
  • $-i$ 是一个元素,因为 $-i \in \mathbb{C}$$(-i)^4 = (i^4) = 1$
  • $2$ 不是一个元素,尽管 $2 \in \mathbb{C}$,但 $2^4 = 16 \neq 1$

所以,这个公式为我们提供了一个清晰、无歧义的标准来判断任何一个数是否为 n次单位根

💡 [数值示例]

示例 1:n = 2 (二次单位根)

  • 根据定义,我们要找所有满足 $\zeta^2 = 1$复数 $\zeta$
  • 实数范围内,我们知道解是 $\zeta = 1$$\zeta = -1$
  • 复数范围内,解也是这两个。
  • 所以,$\mu_2 = \{1, -1\}$
  • 验证性质:$|1| = 1$, $|-1| = 1$。它们都在单位圆上。

示例 2:n = 3 (三次单位根)

  • 我们要解方程 $\zeta^3 = 1$
  • 一个明显的实数解是 $\zeta = 1$
  • 为了找复数解,我们移项得 $\zeta^3 - 1 = 0$。利用立方差公式 $(a^3 - b^3) = (a-b)(a^2+ab+b^2)$,我们有 $(\zeta - 1)(\zeta^2 + \zeta + 1) = 0$
  • 所以解要么来自 $\zeta - 1 = 0$(即 $\zeta=1$),要么来自 $\zeta^2 + \zeta + 1 = 0$
  • 对于二次方程 $\zeta^2 + \zeta + 1 = 0$,使用求根公式 $\zeta = \frac{-b \pm \sqrt{b^2 - 4ac}}{2a}$,其中 $a=1, b=1, c=1$
  • $\zeta = \frac{-1 \pm \sqrt{1^2 - 4(1)(1)}}{2(1)} = \frac{-1 \pm \sqrt{-3}}{2} = \frac{-1 \pm i\sqrt{3}}{2}$
  • 因此,我们得到两个复数根:$\zeta_1 = -\frac{1}{2} + i\frac{\sqrt{3}}{2}$$\zeta_2 = -\frac{1}{2} - i\frac{\sqrt{3}}{2}$
  • 所以,$\mu_3 = \{1, -\frac{1}{2} + i\frac{\sqrt{3}}{2}, -\frac{1}{2} - i\frac{\sqrt{3}}{2}\}$
  • 验证性质:$|1|=1$。对于 $\zeta_1$, $|\zeta_1| = \sqrt{(-\frac{1}{2})^2 + (\frac{\sqrt{3}}{2})^2} = \sqrt{\frac{1}{4} + \frac{3}{4}} = \sqrt{1} = 1$。同样地, $|\zeta_2|=1$。这三个根都在单位圆上。
⚠️ [易错点]
  1. 混淆实数根和复数根:初学者最容易犯的错误就是只考虑实数解。例如,问 1 的 4 次方根是什么,很多人会只回答 1 和 -1,而忘记了 $i$$-i$。必须记住,在复数域中讨论 $n$ 次方根,非零数就一定有 $n$ 个。
  2. n=1 的情况:当 $n=1$ 时,方程是 $\zeta^1 = 1$,解只有一个,就是 $\zeta = 1$。所以 $\mu_1 = \{1\}$。这是一个平凡但有效的边界情况。
  3. 误认为单位根都是虚数:1 永远是 n次单位根,当 n 是偶数时,-1 也是。所以单位根不全是虚数。
  4. 忘记代数完备性复数域的代数完备性代数学基本定理的体现,它保证了 $n$ 次多项式在复数域中有 $n$ 个根(计算重数)。$\zeta^n - 1 = 0$ 就是一个 $n$ 次多项式方程,所以它一定有 $n$复数根。
📝 [总结]

本段的核心是引入 n次单位根 的概念。它首先通过对比实数复数开方的不同,强调了复数域的优越性(解的数量确定且完备),然后将这个思想聚焦于求解方程 $\zeta^n=1$,并正式定义了所有满足此方程的复数 $\zeta$ 的集合为 $\mu_n$。最后,通过简单的推导指出了所有 n次单位根 都在复平面单位圆上这一基本几何性质。

🎯 [存在目的]

n次单位根在数学中扮演着极其重要的角色,尤其是在群论数论傅里叶分析中。

  1. 群论的入门范例:正如我们稍后会看到的,$\mu_n$复数乘法下构成一个非常典型和重要的循环群。它的结构简单而优美,是学习子群生成元等抽象概念时最直观、最具体的例子。
  2. 几何意义n次单位根复平面上均匀地分布在单位圆上,构成一个正 n 边形的顶点。这为代数问题提供了强有力的几何直观。
  3. 解多项式方程:理解了单位根,就可以轻松地解出任意复数 $z$$n$ 次方根。因为如果 $z_0$$z$ 的一个 $n$ 次方根,那么所有其他的根就是 $z_0$ 乘以每一个 n次单位根
  4. 傅里叶变换:离散傅里叶变换 (DFT) 的核心就是用单位根作为基函数。
🧠 [直觉心智模型]

想象一个钟表。钟面就是一个单位圆

  1. 1次单位根 ($\mu_1$):只有12点钟(代表1)这一个位置。
  2. 2次单位根 ($\mu_2$):有12点钟(1)和6点钟(-1)两个位置。
  3. 3次单位根 ($\mu_3$):有12点钟(1)、8点钟和4点钟三个位置,它们把钟面三等分。
  4. n次单位根 ($\mu_n$):就是把钟面精确地分成 $n$ 等分的那些点,其中一个点永远在12点钟(1)的位置。这些点就是复平面上的 n次单位根
💭 [直观想象]

想象你在一个圆形的赛道(单位圆)上跑步。起点在 $(1,0)$ 的位置。

  1. 方程 $\zeta^n=1$ 可以理解为:你从起点出发,以某个固定的速度(某个特定的复数 $\zeta$)跑。每跑一步,你的位置就乘以 $\zeta$(即旋转一个固定的角度)。
  2. n次单位根 $\zeta$ 就是这样一种神奇的速度,它使得你不多不少,正好跑了 $n$ 步之后,第一次回到了起点 $(1,0)$
  3. 例如,对于 $\mu_4$,速度 $i$ (代表逆时针旋转90度)就是这样一个速度。你跑一步到 $(0,1)$,第二步到 $(-1,0)$,第三步到 $(0,-1)$,第四步正好回到 $(1,0)$。所以 $i$ 是一个 4次单位根
21.2 n次单位根的显式公式与群结构

📜 [原文2]

由此可得:

命题 3.4.7. 对于 $n \in \mathbb{N}$

$$ \mu_{n}=\left\{\cos \left(\frac{2 k \pi}{n}\right)+i \sin \left(\frac{2 k \pi}{n}\right): 0 \leq k \leq n-1\right\} . $$

因此 $\#\left(\mu_{n}\right)=n$。此外,

(i) 如果 $\zeta_{1}, \zeta_{2} \in \mu_{n}$,则 $\zeta_{1} \zeta_{2} \in \mu_{n}$。换句话说,$\mu_{n}$ 在乘法下是封闭的。

(ii) $1 \in \mu_{n}$

(iii) 如果 $\zeta \in \mu_{n}$,则 $\zeta^{-1} \in \mu_{n}$。换句话说,$\mu_{n}$ 在取逆操作下是封闭的。

证明. (i) 通过将命题 3.4.4 应用于 $z=1$ 得到。(ii) 如果 $\zeta_{1}, \zeta_{2} \in \mu_{n}$,则 $\left(\zeta_{1} \zeta_{2}\right)^{n}=\zeta_{1}^{n} \zeta_{2}^{n}=1 \cdot 1=1$ 得到。(iii) 如果 $\zeta \in \mu_{n}$,则 $\left(\zeta^{-1}\right)^{n}=\zeta^{-n}=\left(\zeta^{n}\right)^{-1}=1^{-1}=1$ 得到。

📖 [逐步解释]

这部分内容给出了 n次单位根 的具体计算公式,并证明了 n次单位根 的集合在复数乘法下构成一个

  1. n次单位根的公式
    • 命题 3.4.7 给出了一个明确的公式来计算出所有的 n次单位根
    • 这个公式是基于复数极坐标表示棣莫弗定理。任何一个要求解 $\zeta^n=1$复数 $\zeta$,我们都可以将其设为极坐标形式 $\zeta = r(\cos\theta + i\sin\theta)$
    • 根据上一节的结论,我们已经知道 $r=|\zeta|=1$。所以 $\zeta = \cos\theta + i\sin\theta$
    • 根据棣莫弗定理$\zeta^n = (\cos\theta + i\sin\theta)^n = \cos(n\theta) + i\sin(n\theta)$
    • $1$极坐标形式$1 = \cos(2k\pi) + i\sin(2k\pi)$,其中 $k$ 是任意整数。
    • 所以方程 $\zeta^n=1$ 就变成了 $\cos(n\theta) + i\sin(n\theta) = \cos(2k\pi) + i\sin(2k\pi)$
    • 这意味着 $n\theta$ 必须等于 $2k\pi$。因此,$\theta = \frac{2k\pi}{n}$
    • 我们将不同的整数 $k$ 代入,就可以得到不同的根。
    • $k=0$ 时,$\theta=0$$\zeta = \cos 0 + i\sin 0 = 1$
    • $k=1$ 时,$\theta=\frac{2\pi}{n}$$\zeta = \cos(\frac{2\pi}{n}) + i\sin(\frac{2\pi}{n})$
    • ...
    • $k=n-1$ 时,$\theta=\frac{2(n-1)\pi}{n}$$\zeta = \cos(\frac{2(n-1)\pi}{n}) + i\sin(\frac{2(n-1)\pi}{n})$
    • $k=n$ 时,$\theta=\frac{2n\pi}{n} = 2\pi$,这与 $k=0$ 的情况得到的根是同一个。当 $k>n$$k<0$ 时,我们得到的根也都会与 $k=0, 1, ..., n-1$$n$ 个根中的一个重合。
    • 因此,我们只需要取 $k=0, 1, \ldots, n-1$$n$ 个值,就可以得到所有 $n$ 个不同的 n次单位根
  2. 根的数量
    • #(\mu_n) = n 这句话是公式的直接推论。符号 #(S) 表示集合 S 中元素的个数(也叫集合的基数)。
    • 因为 $k$ 从 0 到 $n-1$ 一共取了 $n$ 个值,并且这 $n$ 个值对应的角度 $\frac{2k\pi}{n}$$[0, 2\pi)$ 范围内都是不同的,所以我们得到了 $n$ 个不同的复数
  3. 群结构的验证
    • 这部分内容实际上是在证明 $\mu_n$ 集合在复数乘法下满足的三个基本公理(封闭性、单位元、逆元)。
    • (i) 封闭性 (Closure):证明任意两个 n次单位根 相乘,结果仍然是一个 n次单位根
    • 证明过程非常直接:设 $\zeta_1, \zeta_2$ 都是 n次单位根,这意味着 $\zeta_1^n=1$$\zeta_2^n=1$
    • 我们要检验它们的乘积 $\zeta_1\zeta_2$ 是不是也是 n次单位根,也就是检验 $(\zeta_1\zeta_2)^n$ 是否等于 1。
    • 利用指数律,$(\zeta_1\zeta_2)^n = \zeta_1^n \zeta_2^n$。因为我们知道 $\zeta_1^n=1$$\zeta_2^n=1$,所以结果是 $1 \cdot 1 = 1$
    • 这就证明了乘积确实也是一个 n次单位根,所以集合 $\mu_n$ 在乘法下是封闭的。
    • (ii) 单位元 (Identity Element):证明集合中包含乘法单位元 1。
    • 这非常显然,因为 $1^n=1$ 对于任何自然数 $n$ 都成立。所以 1 永远是 n次单位根 集合中的一员。
    • (iii) 逆元 (Inverse Element):证明集合中每个元素的乘法逆元也存在于该集合中。
    • 一个复数 $\zeta$ 的乘法逆元$\zeta^{-1}$$1/\zeta$
    • 我们要证明:如果 $\zeta$ 是一个 n次单位根,那么它的逆元 $\zeta^{-1}$ 也是。
    • 已知 $\zeta^n=1$。我们要检验 $(\zeta^{-1})^n$ 是否等于 1。
    • 利用指数律,$(\zeta^{-1})^n = \zeta^{-n} = (\zeta^n)^{-1}$
    • 因为 $\zeta^n=1$,所以结果是 $(1)^{-1} = 1$
    • 这就证明了逆元也满足方程,因此也在集合 $\mu_n$ 中。
∑ [公式拆解]

公式:

$$ \mu_{n}=\left\{\cos \left(\frac{2 k \pi}{n}\right)+i \sin \left(\frac{2 k \pi}{n}\right): 0 \leq k \leq n-1\right\} . $$

  • $\mu_n$n次单位根的集合。
  • $\{$...$\}$:集合的表示法。
  • $\cos \left(\frac{2 k \pi}{n}\right)+i \sin \left(\frac{2 k \pi}{n}\right)$:这是一个复数极坐标形式,其模长为 1,辐角为 $\frac{2k\pi}{n}$。这也就是欧拉公式中的 $e^{i \frac{2k\pi}{n}}$
  • $k$:一个整数变量,作为计数器。
  • $\pi$:圆周率。
  • $i$:虚数单位,$i^2 = -1$
  • $n$:题目中给定的开方次数。
  • $:$:冒号,读作 "使得" 或 "满足"。
  • $0 \leq k \leq n-1$:这是对计数器 $k$ 的范围限制。它表示 $k$ 依次取 $0, 1, 2, \ldots, n-1$$n$ 个整数值。

整个公式的推导在[逐步解释]部分已经详细说明。这个公式告诉我们,要找到所有的 n次单位根,我们只需要把单位圆 $360^\circ$ (即 $2\pi$ 弧度) 分成 $n$ 等份,从角度 0 开始,每一份取一个点,这些点的复数坐标就是所有的 n次单位根

💡 [数值示例]

示例 1:n = 4 (四次单位根)

  • 使用公式,我们让 $k$$0, 1, 2, 3$
  • k=0: $\zeta_0 = \cos(\frac{2 \cdot 0 \cdot \pi}{4}) + i\sin(\frac{2 \cdot 0 \cdot \pi}{4}) = \cos(0) + i\sin(0) = 1$
  • k=1: $\zeta_1 = \cos(\frac{2 \cdot 1 \cdot \pi}{4}) + i\sin(\frac{2 \cdot 1 \cdot \pi}{4}) = \cos(\frac{\pi}{2}) + i\sin(\frac{\pi}{2}) = 0 + i \cdot 1 = i$
  • k=2: $\zeta_2 = \cos(\frac{2 \cdot 2 \cdot \pi}{4}) + i\sin(\frac{2 \cdot 2 \cdot \pi}{4}) = \cos(\pi) + i\sin(\pi) = -1 + i \cdot 0 = -1$
  • k=3: $\zeta_3 = \cos(\frac{2 \cdot 3 \cdot \pi}{4}) + i\sin(\frac{2 \cdot 3 \cdot \pi}{4}) = \cos(\frac{3\pi}{2}) + i\sin(\frac{3\pi}{2}) = 0 + i \cdot (-1) = -i$
  • 所以 $\mu_4 = \{1, i, -1, -i\}$
  • 验证封闭性: $i \cdot (-1) = -i$, 结果在集合中。$i \cdot i = -1$, 结果在集合中。$(-i) \cdot (-1) = i$, 结果在集合中。
  • 验证逆元: $i$逆元$1/i = -i$,它在集合中。$-1$逆元$-1$,它在集合中。

示例 2:n = 6 (六次单位根)

  • 我们让 $k$$0, 1, 2, 3, 4, 5$。角度分别是 $0, \pi/3, 2\pi/3, \pi, 4\pi/3, 5\pi/3$
  • $\mu_6 = \{1, \cos(\frac{\pi}{3}) + i\sin(\frac{\pi}{3}), \cos(\frac{2\pi}{3}) + i\sin(\frac{2\pi}{3}), -1, \cos(\frac{4\pi}{3}) + i\sin(\frac{4\pi}{3}), \cos(\frac{5\pi}{3}) + i\sin(\frac{5\pi}{3})\}$
  • 计算出来就是 $\mu_6 = \{1, \frac{1}{2}+i\frac{\sqrt{3}}{2}, -\frac{1}{2}+i\frac{\sqrt{3}}{2}, -1, -\frac{1}{2}-i\frac{\sqrt{3}}{2}, \frac{1}{2}-i\frac{\sqrt{3}}{2}\}$
  • 这 6 个点在单位圆上构成一个正六边形。
⚠️ [易错点]
  1. k 的取值范围:必须从 0 开始,到 n-1 结束。如果从 1 开始到 n 结束,虽然得到的也是 n 个不同的根,但这不符合数学上的标准约定,可能会在引用其他定理时出错。标准约定通常包含 1 (对应 k=0) 作为最基本的根。
  2. 弧度制与角度制:公式中使用的是弧度制。如果对弧度不熟悉,可以换算成角度:$\frac{2k\pi}{n}$ 对应于 $\frac{k \cdot 360^\circ}{n}$
  3. 证明的逻辑:在证明(ii)和(iii)时,原文的编号似乎有误。原文的证明(i)实际是解释公式的来源,证明(ii)是验证封闭性,证明(iii)是验证逆元。而命题中的(ii)单位元的存在是自明的,甚至不需要证明。这可能是排版错误。
  4. 群的完整定义:这里只验证了的三个基本性质。严格来说,要成为一个,运算还必须满足结合律。但因为这里的运算是复数乘法,而复数乘法本身就满足结合律,所以这个条件是自动满足的,通常在讨论复数子群时会默认此项。
📝 [总结]

本段给出了计算所有 n次单位根 的显式公式 $e^{i \frac{2k\pi}{n}}$,其中 $k$$0, 1, \ldots, n-1$。这个公式表明共有 $n$单位根。然后,通过简单的代数运算,证明了 n次单位根 的集合 $\mu_n$ 对于复数乘法是封闭的、包含单位元 1、并且每个元素的逆元也包含在内。这三个性质(加上复数乘法固有的结合律)表明,($\mu_n$, ×) 构成一个,这是一个在抽象代数中至关重要的结论。

🎯 [存在目的]

本段的目的是从上一段的抽象定义过渡到具体的计算和结构分析。

  1. 可计算性:提供一个具体的公式,使得我们可以写出任意 $n$ 的所有单位根。这让概念变得可以操作。
  2. 揭示结构:证明 $\mu_n$ 构成一个,这是本课程(现代代数)的核心关注点。它将一个看似纯粹是解方程的问题(代数问题)与一个具有深刻对称性的结构()联系起来。
  3. 承上启下:这为后续讨论循环群生成元等概念提供了最完美的实例。例如,可以进一步提问:$\mu_n$ 这个是不是可以由一个元素通过自乘(幂运算)生成所有的元素?(答案是肯定的,例如 $e^{i\frac{2\pi}{n}}$ 就是一个生成元)。
🧠 [直觉心智模型]

再次回到钟表的模型。公式 $\cos(\frac{2k\pi}{n})+i\sin(\frac{2k\pi}{n})$ 就是告诉你钟面上那 $n$ 个等分点的精确数学坐标。

  1. $k$ 就是你在数第几个点。$k=0$ 是起点(12点钟),$k=1$ 是第一个点,以此类推。
  2. 封闭性的直觉理解:你在钟面上这些标记点之间“跳”。如果你从12点钟跳了 $a$ 格,又跳了 $b$ 格,你最终落脚的地方 $(\text{第 } a+b \text{ 格})$ 必然还是这些标记点中的一个。这里的“跳”就是乘法(角度相加)。
  3. 单位元的直觉理解:12点钟(1)这个标记点永远都在。
  4. 逆元的直觉理解:如果你从12点钟顺时针跳了 $k$ 格,那么必然存在一个逆向的操作,即逆时针跳 $k$ 格,让你回到12点钟。这个逆向操作对应的点也必然是 $n$ 个标记点之一。
💭 [直观想象]

想象一个切披萨的场景。

  1. 一个完整的披萨代表单位圆
  2. 要找到 n次单位根,就是要把这个披萨精确地切成 $n$ 份完全一样的扇形。
  3. 那些刀印(从圆心到边缘的切口)与披萨边缘的交点,就是 n次单位根
  4. 一共有 $n$ 个这样的交点(加上最开始下刀的那个点)。
  5. 封闭性:你吃了其中一份(转过一个角度),再吃一份(再转过一个角度),你停下来的位置仍然是一个“刀印”所在的位置。
  6. 单位元:你总有一个开始下刀的地方,那就是 1。
  7. 逆元:你顺时针转了 $k$ 份,总能通过逆时针转 $k$ 份回到原位。
31.3 n次单位根的几何意义与应用

📜 [原文3]

备注 3.4.8. (i) $n$ 次单位根,看作 $\mathbb{R}^{2}$ 中的向量,是单位圆内接正 $n$ 边形的顶点,其中一个顶点位于 $(1,0)$

(ii) 很容易看出,一旦我们找到一个非零复数 $z$ 的一个 $n$ 次方根 $u$,那么 $z$ 的所有 $n$ 次方根都是 $\zeta u$ 的形式,其中 $\zeta \in \mu_{n}$。也就是说,给定一个非零复数的任意两个 $n$ 次方根,它们之间相差一个 $n$ 次单位根的乘积。

警告:我们已经看到整数指数的常规规则适用于复数。然而,分数指数的常规规则(只要我们总是取正值,这些规则对正实数仍然成立)通常不适用于复数根;这与复数的 $n$ 次方根通常没有一个首选值的事实有关。例如,

$$ -1=i^{2}=\sqrt{-1} \sqrt{-1} \neq \sqrt{(-1)(-1)}=\sqrt{1}=1 $$

📖 [逐步解释]

这部分内容分为两个“备注”和一个“警告”,分别阐述了 n次单位根 的几何图像、其在求解一般复数开方中的应用,以及使用分数指数时需要注意的陷阱。

  1. 备注 (i):几何意义
    • 这句话将代数对象“n次单位根”与几何图形“正n边形”直接联系起来。
    • 一个复数 $a+bi$ 可以看作是二维实数平面 $\mathbb{R}^2$ 上的一个点或一个向量 $(a,b)$
    • 根据上一节的公式,所有的 n次单位根 的形式为 $(\cos(\frac{2k\pi}{n}), \sin(\frac{2k\pi}{n}))$。这些点与原点的距离(模长)都是1,所以它们都在以原点为圆心,半径为1的单位圆上。
    • 这些点的辐角(角度)是 $0, \frac{2\pi}{n}, \frac{4\pi}{n}, \ldots, \frac{2(n-1)\pi}{n}$。相邻两个点之间的角度差都是 $\frac{2\pi}{n}$
    • 这意味着这些点将单位圆的周长 $n$ 等分了。
    • 将这些点依次连接起来,正好构成一个内接于单位圆的正 $n$ 边形。
    • $k=0$ 时,我们得到的根是 $(\cos 0, \sin 0) = (1,0)$,所以这个正 n 边形的一个顶点总是在实轴的正半轴上。
  2. 备注 (ii):求解任意复数的n次方根
    • 这部分揭示了单位根的核心应用之一:它是解开任意复数开方问题的“万能钥匙”。
    • 假设我们要解方程 $w^n = z$,其中 $z$ 是一个给定的非零复数
    • “一旦我们找到一个...根 $u$”,这意味着我们通过某种方法(比如将 $z$ 写成极坐标形式然后开方)得到了一个特解 $u$,满足 $u^n=z$
    • 那么其他的根是什么呢?设 $w$ 是另一个根,也满足 $w^n=z$
    • 我们来看它们的比值:$(\frac{w}{u})^n = \frac{w^n}{u^n} = \frac{z}{z} = 1$
    • 这个方程 $(\frac{w}{u})^n = 1$ 恰好是 n次单位根 的定义!这意味着比值 $\frac{w}{u}$ 必须是一个 n次单位根
    • $\frac{w}{u} = \zeta$,其中 $\zeta \in \mu_n$
    • 因此,$w = \zeta u$
    • 这就告诉我们一个非常强大的结论:要求一个复数 $z$ 的所有 $n$$n$ 次方根,我们只需要找到它的 一个$u$,然后用这个根 $u$ 去乘以 所有 $n$n次单位根,得到的结果集合 $\{ \zeta u : \zeta \in \mu_n \}$ 就是 $z$ 的所有 $n$ 次方根。
    • 最后一句“任意两个 n 次方根,它们之间相差一个 n 次单位根的乘积”是对这个结论的另一种表述。如果 $w_1, w_2$ 都是 $z$$n$ 次方根,那么 $w_1 = \zeta_1 u$, $w_2 = \zeta_2 u$。所以 $\frac{w_1}{w_2} = \frac{\zeta_1 u}{\zeta_2 u} = \frac{\zeta_1}{\zeta_2}$。由于 $\mu_n$ 是一个$\zeta_2$逆元 $\zeta_2^{-1}$ 也在 $\mu_n$ 中,所以 $\frac{\zeta_1}{\zeta_2} = \zeta_1 \zeta_2^{-1}$ 也在 $\mu_n$ 中。
  3. 警告:分数指数的陷阱
    • 作者提醒我们,不能像处理正实数那样随意地使用分数指数(如 $\sqrt{a}\sqrt{b}=\sqrt{ab}$)。
    • 实数中,$\sqrt{x}$ 通常被定义为 $x$ 的“正”的平方根,这给了我们一个唯一的、首选的值。例如 $\sqrt{4}=2$ 而不是 $\pm 2$。因为有了这个唯一性约定,所以 $\sqrt{a}\sqrt{b}=\sqrt{ab}$ 对于正实数 $a, b$ 是成立的。
    • 但在复数中,$\sqrt{z}$ (或 $z^{1/2}$) 是一个多值函数。$\sqrt{-1}$ 有两个值:$i$$-i$。我们没有一个公认的标准去说哪个是“首选”的。
    • 作者给出的例子非常经典:
    • 从等式 $-1=i^2$ 出发。
    • 如果我们不假思索地认为 $i = \sqrt{-1}$,那么 $i^2$ 就变成了 $\sqrt{-1}\sqrt{-1}$
    • 如果此时我们错误地套用实数的运算法则 $\sqrt{a}\sqrt{b}=\sqrt{ab}$,就会得到 $\sqrt{(-1)(-1)} = \sqrt{1}$
    • $\sqrt{1}$实数语境下的首选值是 1。
    • 这样就推导出了 $-1 = 1$ 这个荒谬的结论。
    • 这个错误的根源在于第二步到第三步的转换:$\sqrt{-1} \sqrt{-1} \neq \sqrt{(-1)(-1)}$。在复数中,$\sqrt{a}\sqrt{b} = \sqrt{ab}$ 这个法则只有在特定条件下才成立,不能滥用。
    • 这个警告的本质是:复数$n$ 次方根是 $n$ 个平等的根,没有哪一个是“主要的”或“首选的”,因此依赖于这种唯一性的运算法则在复数域中会失效。
∑ [公式拆解]

公式:

$$ -1=i^{2}=\sqrt{-1} \sqrt{-1} \neq \sqrt{(-1)(-1)}=\sqrt{1}=1 $$

  • $-1 = i^2$:这是虚数单位 $i$ 的基本定义。
  • $i^2 = \sqrt{-1}\sqrt{-1}$:这一步是问题的开始。它假设我们可以用符号 $\sqrt{-1}$ 来代表 $i$。虽然在很多情况下我们这么做,但这隐藏了多值性的问题。因为 $-i$ 也是 $-1$ 的平方根。如果我们选择 $\sqrt{-1} = i$,那么这一步是成立的。
  • $\sqrt{-1}\sqrt{-1} \neq \sqrt{(-1)(-1)}$:这是整个例子的核心。它指出了等式不成立的地方。左边,如果我们一致地取 $\sqrt{-1}=i$,那么结果是 $i \cdot i = -1$。右边,括号内先计算,得到 $\sqrt{1}$
  • $\sqrt{(-1)(-1)} = \sqrt{1}$:括号内先计算,得到 $\sqrt{1}$
  • $\sqrt{1} = 1$:这里又有一个模糊之处。$\sqrt{1}$复数中有两个根 $1$$-1$。但如果我们按照实数的习惯,取其“算术平方根”,即正值,那么它等于 1。
  • 最终,这个链条式的推导通过在每一步都做出“看似合理但实则有陷阱”的选择,得出了 $-1=1$ 的矛盾。它雄辩地说明了复数开方运算不能简单地套用实数的指数法则。
💡 [数值示例]

示例 1:几何意义 (n=5)

  • 5次单位根是内接于单位圆的正五边形的五个顶点。
  • 其中一个顶点是 $(1,0)$
  • 其他四个顶点将圆周五等分,分别在角度 $72^\circ, 144^\circ, 216^\circ, 288^\circ$ 的位置。
  • 这些顶点的坐标就是 $\mu_5$ 的五个元素。

示例 2:求解 $w^3 = -8i$

  1. 找到一个特解 u
    • 我们将 $-8i$ 写成极坐标形式。它的模长是 $|-8i|=8$。它的辐角是 $3\pi/2$ (或 $- \pi/2$)。
    • 所以 $-8i = 8(\cos(3\pi/2) + i\sin(3\pi/2))$
    • 我们求它的立方根。根据棣莫弗定理的开方形式,一个根 $u$ 的模长是 $\sqrt[3]{8}=2$,辐角是 $(3\pi/2)/3 = \pi/2$
    • 所以一个特解是 $u = 2(\cos(\pi/2) + i\sin(\pi/2)) = 2(0+i) = 2i$
    • 我们可以验证一下:$(2i)^3 = 8i^3 = 8(-i) = -8i$。正确。
  2. 乘以所有三次单位根
    • 我们知道三次单位根$\mu_3 = \{1, -\frac{1}{2}+i\frac{\sqrt{3}}{2}, -\frac{1}{2}-i\frac{\sqrt{3}}{2}\}$
  3. 得到所有解
    • 第一个解:$w_1 = u \cdot 1 = 2i$
    • 第二个解:$w_2 = u \cdot (-\frac{1}{2}+i\frac{\sqrt{3}}{2}) = 2i(-\frac{1}{2}+i\frac{\sqrt{3}}{2}) = -i + 2i^2\frac{\sqrt{3}}{2} = -i - \sqrt{3} = -\sqrt{3} - i$
    • 第三个解:$w_3 = u \cdot (-\frac{1}{2}-i\frac{\sqrt{3}}{2}) = 2i(-\frac{1}{2}-i\frac{\sqrt{3}}{2}) = -i - 2i^2\frac{\sqrt{3}}{2} = -i + \sqrt{3} = \sqrt{3} - i$
    • 因此,方程 $w^3 = -8i$ 的三个复数根是 $\{2i, -\sqrt{3}-i, \sqrt{3}-i\}$
⚠️ [易错点]
  1. 几何直观的误用:虽然 n次单位根 构成正n边形,但任意复数 $z$$n$ 个根构成的正n边形 不一定 内接于单位圆,而是内接于一个半径为 $\sqrt[n]{|z|}$ 的圆。并且这个正n边形相对于单位根的正n边形,整体旋转了一个角度。
  2. 只找特解:在解 $w^n=z$ 时,只找到一个根 $u$ 是不够的,这在复数域中是常见的错误。必须乘以所有的 n次单位根 才能得到完整的解集。
  3. 对警告的不重视:学生在计算时很容易习惯性地使用 $\sqrt{a}\sqrt{b} = \sqrt{ab}$,尤其是在符号运算中。这个警告需要被牢记在心,每次使用类似法则时都要思考其在复数域中的合法性。
📝 [总结]

本段内容极大地丰富了我们对 n次单位根 的理解。它从三个方面进行了阐述:

  1. 几何上n次单位根单位圆内接正n边形的顶点,提供了强大的视觉直观。
  2. 应用上n次单位根 是求解任意复数 $n$ 次方根的通用工具,找到了一个根就等于找到了所有根。
  3. 使用上,通过一个经典的反例,警告我们不能将实数域中关于开方的运算法则想当然地推广到复数域,因为复数的方根具有多值性。
🎯 [存在目的]

本段的目的是展示 n次单位根 这个概念的威力、美感和潜在的危险。

  1. 建立代数与几何的联系:这是现代数学的一个核心思想。将抽象的代数结构(如 $\mu_n$)与直观的几何对象(正n边形)对应起来,可以让我们用一种方法来理解另一种。
  2. 提供通用的解题工具:备注 (ii) 是一个非常实用的结论,它将一个普遍的问题(求任意复数的根)简化为两个子问题:求一个特解,和求所有单位根。这是一种重要的“化归”思想。
  3. 培养数学严谨性:警告部分的目的在于培养学生的批判性思维和严谨性。数学不仅仅是套用公式,更重要的是理解公式和法则成立的前提与边界。这个例子教育我们,从一个熟悉的领域进入一个更广阔的领域时,必须重新审视所有旧的“常识”。
🧠 [直觉心智模型]
  1. 几何模型:想象一个由 n次单位根 构成的正n边形模板,它由透明的塑料制成,中心有一个洞,可以套在原点上。要求复数 $z$$n$ 个根,你先找到一个根 $u$ 的位置,然后把这个塑料模板套在原点上,旋转模板直到其中一个顶点对准 $u$。此时,模板的其他 $n-1$ 个顶点所指向的位置,就是 $z$ 的其他所有根。
  2. 分数指数法则的陷阱:想象你有两张半透明的卡片,一张写着“$i$”,一张也写着“$i$”。把它们叠在一起,你看到了“$i^2$”,也就是 $-1$。现在,你有另外两张卡片,一张写着“$-1$”,一张也写着“$-1$”。你把它们放在一个“开平方根”的机器里,机器吐出两张卡片,分别是“$i$”和“$i$”。但是,如果你先把两张写着“$-1$”的卡片通过一个“乘法”机器,变成了一张写着“$1$”的卡片,再把这张“$1$”放进“开平方根”的机器,它吐出的可能是两张都写着“$1$”的卡片。操作的顺序和方式改变了结果。
💭 [直观想象]
  1. 寻找所有宝藏:想象在一个圆形的海域里埋藏着 $n$ 个宝藏。这些宝藏构成一个正n边形。n次单位根 就像一张指示了这 $n$ 个宝藏 相对位置 的地图(例如,2号宝藏在1号宝藏的东北方向30度,3号在2号的东北方向30度...)。你只需要找到其中一个宝藏的位置(特解 $u$),然后利用这张地图,就能定位出所有其他宝藏的位置。
  2. 法律的适用范围实数的运算法则就像一个国家的国内法,比如“车辆靠右行驶”。当你出国(进入复数域)到了另一个国家,这个法律可能就不适用了(比如英国要求“车辆靠左行驶”)。如果你还按照老习惯开车,就会出问题($-1=1$)。你必须学习并遵守当地的法律(复数的运算法则)。

2. 线性代数回顾

这是一个大的章节标题,下面将分为多个子部分进行解释。

12.1. 向量
12.1.1 向量与标量的基本运算

📜 [原文4]

我们将简要提及线性代数的某些方面,其中大部分内容应该是熟悉的。我们将在第 7 章第 §2.2 节中给出更一般的处理方法,包括对以下一些结果的证明。

线性代数处理向量(即 $\mathbb{R}^{n}$ 的元素,我们此处将用粗体字母如 $\mathbf{v}$ 表示)和标量(换句话说,$\mathbb{R}$ 的元素)。(我们也可以根据需要使用 $\mathbb{C}^{n}$$\mathbb{Q}^{n}$标量分别为 $\mathbb{C}$$\mathbb{Q}$。关键在于,对于我们用作标量的任何集合,我们都需要能够进行加、减、乘、除(除数不能为 0),并且加法和乘法的常规性质都成立。) 我们可以将两个向量相加:如果 $\mathbf{v}=\left(v_{1}, \ldots, v_{n}\right)$$\mathbf{w}=\left(w_{1}, \ldots, w_{n}\right) \in \mathbb{R}^{n}$,那么 $\mathbf{v}+\mathbf{w}=\left(v_{1}+w_{1}, \ldots, v_{n}+w_{n}\right)$标量乘法定义如下:给定 $t \in \mathbb{R}$$\mathbf{v}=\left(v_{1}, \ldots, v_{n}\right) \in \mathbb{R}^{n}$$t \mathbf{v}=\left(t v_{1}, \ldots, t v_{n}\right)$。注意,给定 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$,那么 $\mathbf{v}+\mathbf{w} \in \mathbb{R}^{n}$ (两个向量的和是一个向量),而对于 $t \in \mathbb{R}, \mathbf{v} \in \mathbb{R}^{n}$$t \mathbf{v} \in \mathbb{R}^{n}$ (当我们将向量标量相乘时,结果是一个向量)。

📖 [逐步解释]

这部分内容为回顾线性代数设定了基调,并定义了最基本的两个概念——向量标量,以及它们之间的两种基本运算——向量加法标量乘法

  1. 引言
    • 作者首先说明这部分是“简要提及”,假设读者已有一定的线性代数基础。
    • 同时预告了在后续章节(第7章)中会有更抽象、更一般化的处理。这暗示了当前的回顾是基于具体的 $\mathbb{R}^n$ 空间,而未来会推广到抽象的向量空间
  2. 核心对象:向量与标量
    • 线性代数的研究对象被明确为向量标量
    • 向量 (Vector):在这里被具体定义为 $\mathbb{R}^n$ 的元素。一个 $\mathbb{R}^n$ 的元素是一个有序的 $n$ 元数组,如 $\mathbf{v} = (v_1, v_2, \ldots, v_n)$。作者约定使用粗体字母(如 $\mathbf{v}$)来表示向量,以区别于标量
    • 标量 (Scalar):在这里被具体定义为 $\mathbb{R}$ 的元素,即普通的实数标量通常用来“缩放”向量
    • 推广:括号里的内容非常重要,它揭示了线性代数的抽象本质。
    • 我们不一定非要用实数向量可以是 $\mathbb{C}^n$$n$复数组成的数组),此时标量就是复数 $\mathbb{C}$向量也可以是 $\mathbb{Q}^n$$n$有理数组成的数组),此时标量就是有理数 $\mathbb{Q}$
    • 关键在于,充当“标量”的那个数集,必须是一个“”(Field)。“”是一个代数结构,在其中可以进行加、减、乘、除(除以非零数)四则运算,并且这些运算满足我们所熟悉的交换律、结合律、分配律等。$\mathbb{R}$, $\mathbb{C}$, $\mathbb{Q}$ 都是的例子。这个概念是抽象代数的核心。
  3. 基本运算的定义
    • 向量加法 (Vector Addition)
    • 定义为“对应分量相加”。
    • 如果 $\mathbf{v} = (v_1, \ldots, v_n)$$\mathbf{w} = (w_1, \ldots, w_n)$,那么它们的和 $\mathbf{v}+\mathbf{w}$ 就是一个新的向量,其第一个分量是 $v_1+w_1$,第二个分量是 $v_2+w_2$,以此类推。
    • 这个定义非常直观,几何上对应于向量的“平行四边形法则”或“首尾相连法则”。
    • 标量乘法 (Scalar Multiplication)
    • 定义为一个标量 $t$ 乘以一个向量 $\mathbf{v}$
    • 其结果是将向量每一个 分量都乘以该标量$t\mathbf{v} = (tv_1, \ldots, tv_n)$
    • 几何上,这对应于将向量进行拉伸或压缩。如果 $t>1$向量被拉长;如果 $0<t<1$向量被缩短;如果 $t<0$向量被反向并缩放。
  4. 运算的封闭性
    • 作者特意强调了运算的封闭性,这是构建代数结构的第一步。
    • “两个向量的和是一个向量”:$\mathbb{R}^n$ 中的任意两个向量相加,结果仍然在 $\mathbb{R}^n$ 中,不会跑到空间外面去。
    • 向量标量相乘,结果是一个向量”:用一个实数去乘一个 $\mathbb{R}^n$ 中的向量,结果也仍在 $\mathbb{R}^n$ 中。
    • 这两个封闭性向量空间定义的前两条基本要求。
💡 [数值示例]

假设我们在 $\mathbb{R}^3$ 空间中工作。

  • 向量 $\mathbf{v} = (1, 2, 3)$$\mathbf{w} = (4, -1, 0)$
  • 标量 $t = -2$

示例 1:向量加法

  • $\mathbf{v} + \mathbf{w} = (1+4, 2+(-1), 3+0) = (5, 1, 3)$
  • 结果 $(5, 1, 3)$ 仍然是一个 $\mathbb{R}^3$ 中的向量

示例 2:标量乘法

  • $t\mathbf{v} = -2 \cdot (1, 2, 3) = (-2 \cdot 1, -2 \cdot 2, -2 \cdot 3) = (-2, -4, -6)$
  • 结果 $(-2, -4, -6)$ 仍然是一个 $\mathbb{R}^3$ 中的向量。它表示将向量 $(1,2,3)$ 的方向反向,并且长度变为原来的两倍。

示例 3:在复数向量空间 $\mathbb{C}^2$ 中运算

  • 向量 $\mathbf{a} = (1+i, 2)$$\mathbf{b} = (3, -i)$
  • 标量 $s = i$
  • 向量加法: $\mathbf{a} + \mathbf{b} = (1+i+3, 2-i) = (4+i, 2-i)$
  • 标量乘法: $s\mathbf{a} = i \cdot (1+i, 2) = (i(1+i), i \cdot 2) = (i+i^2, 2i) = (i-1, 2i) = (-1+i, 2i)$
⚠️ [易错点]
  1. 向量与向量的乘法:注意,这里没有定义两个向量如何相乘得到另一个向量线性代数的基本框架不包含这个。后面会提到的“点积”或“内积”是两个向量相乘得到一个 标量;而“叉积”是在 $\mathbb{R}^3$ 中定义的两个向量相乘得到另一个 向量,但它不具有普遍性。
  2. 标量与标量相加:不能将一个标量和一个向量直接相加,例如 $t + \mathbf{v}$ 是没有定义的。它们是不同类型的对象。
  3. 零向量:一个特殊的向量零向量 $\mathbf{0} = (0, 0, \ldots, 0)$。它在向量加法中扮演着类似于数字 0 在普通加法中的角色。
  4. 维度必须匹配:只有在相同维度空间(例如都是 $\mathbb{R}^n$)中的向量才能相加。一个 $\mathbb{R}^2$向量不能和一个 $\mathbb{R}^3$向量相加。
📝 [总结]

本段为线性代数的回顾打下了基础,清晰地定义了两个主角——向量标量——以及它们之间的两种基本互动方式——向量加法标量乘法向量被具体化为 $\mathbb{R}^n$ 中的元素(一个数字列表),标量$\mathbb{R}$ 中的元素(单个数字)。加法按分量进行,乘法则是将标量分配到向量的每个分量。同时,通过提及 $\mathbb{C}^n$$\mathbb{Q}^n$,作者巧妙地为未来将这些概念推广到更抽象的、基于“”的向量空间埋下了伏笔。

🎯 [存在目的]

本段的目的是建立一个清晰、无歧义的出发点。在深入探讨线性无关矩阵等更复杂的概念之前,必须先对最基本的元素和运算有一个共识。

  1. 建立符号系统:约定了 $\mathbf{v}$ 代表向量$t$ 代表标量
  2. 定义基本运算:为后续的所有代数推导提供了最底层的运算规则。
  3. 强调抽象基础:通过提及的概念,暗示了线性代数的普适性,它不仅仅是关于 $\mathbb{R}^n$ 的几何,而是一套可以应用于许多不同数学对象的强大框架。这对于从具体计算过渡到抽象代数思维至关重要。
🧠 [直觉心智模型]
  1. 向量:可以看作是空间中的一个“箭头”,有长度有方向。或者看作是一个“位置”,从原点指向该位置的坐标。
  2. 标量:就是一个普通的“缩放因子”或“数字”。
  3. 向量加法:想象你有两段位移,先走第一段 (向量 $\mathbf{v}$),再从终点开始走第二段 (向量 $\mathbf{w}$),你最终的位置就是 $\mathbf{v}+\mathbf{w}$。这就是“首尾相连”法则。或者,想象有两个力 $\mathbf{v}$$\mathbf{w}$ 同时作用在一个物体上,这个物体感受到的合力就是 $\mathbf{v}+\mathbf{w}$。这就是“平行四边形”法则。
  4. 标量乘法:你有一个箭头 $\mathbf{v}$。用标量 2 去乘它,就是把这个箭头的长度拉长到原来的2倍,方向不变。用 -1 去乘它,就是把箭头掉个头,长度不变。
💭 [直观想象]
  1. 向量:一个购物清单,比如 $\mathbf{v} = (3, 2, 5)$ 代表 “3个苹果,2个香蕉,5个橙子”。
  2. 向量加法:你有两张购物清单 $\mathbf{v}=(3,2,5)$$\mathbf{w}=(1,4,0)$。把它们合并成一张总清单,就是 $\mathbf{v}+\mathbf{w} = (4,6,5)$,即“4个苹果,6个香蕉,5个橙子”。
  3. 标量:你想把购物清单上的所有东西都买双份。这个“双份”就是标量 $t=2$
  4. 标量乘法$t\mathbf{v} = 2 \cdot (3,2,5) = (6,4,10)$,新的购物清单是“6个苹果,4个香蕉,10个橙子”。
22.1.2 向量运算的基本性质

📜 [原文5]

以下是向量加法和标量乘法的基本性质。通过使用实数加法和乘法的常规性质,它们很容易验证。

命题 4.1.1. (i) 向量加法是可交换和结合的,存在一个零向量 $\mathbf{0}=(0, \ldots, 0)$,并且每个向量 $\mathbf{v}$ 都有一个加法逆元 $-\mathbf{v}=(-1) \mathbf{v}=\left(-v_{1}, \ldots,-v_{n}\right)$

(ii) 标量乘法满足:对于所有 $s, t \in \mathbb{R}$$\mathbf{v} \in \mathbb{R}^{n}$$s(t \mathbf{v})=(s t) \mathbf{v}$$1 \mathbf{v}=\mathbf{v}$

(iii) 有两个分配律的类比:对于所有 $s, t \in \mathbb{R}$$\mathbf{v} \in \mathbb{R}^{n}$$(s+t) \mathbf{v}= s \mathbf{v}+t \mathbf{v}$;对于所有 $t \in \mathbb{R}$$\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$$t(\mathbf{v}+\mathbf{w})=t \mathbf{v}+t \mathbf{w}$

📖 [逐步解释]

这部分内容系统地罗列了向量加法标量乘法所满足的8条基本运算法则。这些法则是构成一个“向量空间”的公理,也是进行一切线性代数运算的基础。作者指出,这些性质的证明都非常直接,因为它们本质上就是将向量运算拆解为分量上的实数运算,而实数的运算性质是我们所熟知的。

  1. 命题 4.1.1 (i):关于向量加法的性质 (构成阿贝尔群)
    • 可交换 (Commutative): $\mathbf{v}+\mathbf{w} = \mathbf{w}+\mathbf{v}$
    • 证明:$\mathbf{v}+\mathbf{w} = (v_1+w_1, \ldots) = (w_1+v_1, \ldots) = \mathbf{w}+\mathbf{v}$。这里利用了实数加法的交换律 $v_i+w_i = w_i+v_i$
    • 几何意义:平行四边形的两条邻边,先走哪一条再走另一条,最终到达的顶点是同一个。
    • 可结合 (Associative): $(\mathbf{u}+\mathbf{v})+\mathbf{w} = \mathbf{u}+(\mathbf{v}+\mathbf{w})$
    • 证明:同样是利用实数加法的结合律 $(u_i+v_i)+w_i = u_i+(v_i+w_i)$
    • 意义:三个或更多向量相加时,计算顺序无所谓。
    • 存在零向量 (Zero Vector): 存在一个特殊的向量 $\mathbf{0}$,使得对任意向量 $\mathbf{v}$ 都有 $\mathbf{v}+\mathbf{0}=\mathbf{v}$。这个向量就是所有分量都为0的向量 $(0, \ldots, 0)$
    • 证明:$\mathbf{v}+\mathbf{0} = (v_1+0, \ldots) = (v_1, \ldots) = \mathbf{v}$
    • 存在加法逆元 (Additive Inverse): 对每个向量 $\mathbf{v}$,都存在一个向量 $-\mathbf{v}$,使得 $\mathbf{v}+(-\mathbf{v})=\mathbf{0}$。这个逆元就是 $(-v_1, \ldots, -v_n)$,它恰好等于用标量 -1 乘以 $\mathbf{v}$
    • 证明:$\mathbf{v}+(-\mathbf{v}) = (v_1+(-v_1), \ldots) = (0, \ldots) = \mathbf{0}$
    • 这四条性质说明,集合 $\mathbb{R}^n$向量加法这个运算下,构成一个交换群(也叫阿贝尔群)。
  2. 命题 4.1.1 (ii):关于标量乘法的性质
    • 标量乘法的结合律: $s(t\mathbf{v})=(st)\mathbf{v}$
    • 证明:$s(t\mathbf{v}) = s(tv_1, \ldots) = (s(tv_1), \ldots) = ((st)v_1, \ldots) = (st)\mathbf{v}$。这里利用了实数乘法的结合律。
    • 意义:对一个向量进行两次连续的缩放,等价于一次性用两个缩放因子的乘积进行缩放。
    • 标量乘法的单位元: $1\mathbf{v}=\mathbf{v}$
    • 证明:$1\mathbf{v} = (1 \cdot v_1, \ldots) = (v_1, \ldots) = \mathbf{v}$
    • 意义:标量 1 在标量乘法中扮演着“不变”的角色,就像乘法中的1一样。
  3. 命题 4.1.1 (iii):连接两种运算的分配律
    • 标量加法对向量乘法的分配律: $(s+t)\mathbf{v} = s\mathbf{v} + t\mathbf{v}$
    • 证明:$(s+t)\mathbf{v} = ((s+t)v_1, \ldots) = (sv_1+tv_1, \ldots) = (sv_1, \ldots) + (tv_1, \ldots) = s\mathbf{v} + t\mathbf{v}$。这里利用了实数乘法对加法的分配律。
    • 意义:把一个向量同时拉伸 $s$ 倍和 $t$ 倍,效果等同于一次性拉伸 $s+t$ 倍。
    • 标量乘法对向量加法的分配律: $t(\mathbf{v}+\mathbf{w}) = t\mathbf{v} + t\mathbf{w}$
    • 证明:$t(\mathbf{v}+\mathbf{w}) = t(v_1+w_1, \ldots) = (t(v_1+w_1), \ldots) = (tv_1+tw_1, \ldots) = (tv_1, \ldots) + (tw_1, \ldots) = t\mathbf{v} + t\mathbf{w}$
    • 意义:先将两个向量相加得到合向量,然后对合向量进行缩放;等同于先分别对两个向量进行同样的缩放,然后再将它们相加。几何上,这说明缩放操作保持了平行四边形法则。
💡 [数值示例]

使用之前的例子:$\mathbf{v}=(1,2,3)$, $\mathbf{w}=(4,-1,0)$, $s=2$, $t=3$

示例 1:向量加法交换律

  • $\mathbf{v}+\mathbf{w} = (1+4, 2-1, 3+0) = (5,1,3)$
  • $\mathbf{w}+\mathbf{v} = (4+1, -1+2, 0+3) = (5,1,3)$
  • 两者相等。

示例 2:标量乘法结合律

  • $s(t\mathbf{v}) = 2 \cdot (3 \cdot (1,2,3)) = 2 \cdot (3,6,9) = (6,12,18)$
  • $(st)\mathbf{v} = (2 \cdot 3) \cdot (1,2,3) = 6 \cdot (1,2,3) = (6,12,18)$
  • 两者相等。

示例 3:第一个分配律

  • $(s+t)\mathbf{v} = (2+3) \cdot (1,2,3) = 5 \cdot (1,2,3) = (5,10,15)$
  • $s\mathbf{v} + t\mathbf{v} = 2 \cdot (1,2,3) + 3 \cdot (1,2,3) = (2,4,6) + (3,6,9) = (2+3, 4+6, 6+9) = (5,10,15)$
  • 两者相等。

示例 4:第二个分配律

  • $t(\mathbf{v}+\mathbf{w}) = 3 \cdot ((1,2,3)+(4,-1,0)) = 3 \cdot (5,1,3) = (15,3,9)$
  • $t\mathbf{v} + t\mathbf{w} = 3 \cdot (1,2,3) + 3 \cdot (4,-1,0) = (3,6,9) + (12,-3,0) = (3+12, 6-3, 9+0) = (15,3,9)$
  • 两者相等。
⚠️ [易错点]
  1. 区分两种分配律:初学者容易混淆 $(s+t)\mathbf{v}$$t(\mathbf{v}+\mathbf{w})$。要注意第一种是标量的加法,第二种是向量的加法。它们描述了两种不同类型的“分配”关系。
  2. 证明的本质:要清楚地认识到,在 $\mathbb{R}^n$ 中,所有这些向量性质的正确性都“继承”自实数的运算性质。证明的过程就是把向量方程“翻译”成分量上的实数方程。
  3. 抽象的重要性:虽然这些性质在 $\mathbb{R}^n$ 中看起来很“显然”,但将它们明确地抽离出来作为“公理”,是抽象代数的基石。在将来遇到更奇怪的“向量”(比如函数、多项式)和“标量”时,我们就是通过检验这些公理是否成立,来判断它们是否构成一个向量空间
📝 [总结]

本段罗列了定义在 $\mathbb{R}^n$ 上的向量加法标量乘法所满足的8条基本性质。前4条说明了 $(\mathbb{R}^n, +)$ 是一个交换群;后4条则描述了标量乘法自身的性质以及它与向量加法是如何和谐互动的。这些性质共同构成了向量空间的公理体系,是所有线性代数理论的逻辑起点。

🎯 [存在目的]

本段的目的是公理化向量运算。

  1. 奠定逻辑基础:所有后续的定理,比如关于线性无关矩阵的定理,其证明过程都依赖于反复使用这8条基本法则。它们是线性代数这座大厦的基石。
  2. 为抽象化铺路:将这些在 $\mathbb{R}^n$ 中显得很自然、很具体的性质提炼出来,就形成了一套抽象的“向量空间公理”。未来,任何一个集合(例如所有从 $\mathbb{R}$$\mathbb{R}$的连续函数的集合)只要能定义出满足这8条公理的“加法”和“标量乘法”,它就是一个向量空间,所有线性代数的理论就都可以应用其上。这极大地扩展了线性代数的应用范围。
🧠 [直觉心智模型]

想象你在玩一套积木。

  1. 向量是各种形状的积木块。
  2. 标量是你手中的“放大/缩小”控制器。
  3. 向量加法是把两块积木粘在一起。
  4. 标量乘法是用控制器把一块积木变大或变小。

这8条公理就是这套积木系统必须遵守的“物理定律”:

  1. (i) 加法部分:粘积木的顺序无所谓(交换律);粘三块积木时,先粘哪两块无所谓(结合律);有一块“隐形”的积木(零向量),粘上它等于没粘;任何一块积木都有一个跟它形状一样但材质相反的“反物质”积木,俩一粘就一起消失了(逆元)。
  2. (ii) 乘法部分:用控制器先放大2倍,再放大3倍,等于一次性放大6倍(结合律);用放大1倍的控制器,积木不变(单位元)。
  3. (iii) 分配律:用一个“放大5倍”的控制器,等于先用“放大2倍”的再用“放大3倍”的分别作用然后把结果合起来;先把两块积木粘好再一起放大3倍,等于先把它们各自放大3倍再粘起来。
💭 [直观想象]

想象你在用一个绘图软件(比如Photoshop)。

  1. 向量是图层上的一个对象(比如一个形状、一张图片)。
  2. 向量加法是“合并图层”。
  3. 标量乘法是“缩放/变换”工具。
  4. 这些公理就是软件操作的内在逻辑:
  5. 合并图层A和B,跟合并B和A,结果是一样的。
  6. 先合并A和B,再合并C,跟先合并B和C,再合并A,结果是一样的。
  7. 有一个空图层(零向量),合并它不产生任何变化。
  8. 任何一个对象图层,总能创建一个“反向”图层,合并后就空了。
  9. 先缩放50%,再缩放200%,等于直接不缩放(100%)。
  10. 将两个对象编组(向量相加),然后整体缩放50%,等同于先将每个对象分别缩放50%再编组。
32.1.3 线性组合、张成、线性无关与基

📜 [原文6]

接下来我们回顾线性无关张成维数的标准定义:

定义 4.1.2. 给定 $\mathbb{R}^{n}$ 中的向量序列 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$,它们的线性组合是形式为 $\sum_{i=1}^{k} t_{i} \mathbf{v}_{i}$ 的表达式。$\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$张成是所有线性组合的集合:

$$ \operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}=\left\{t_{1} \mathbf{v}_{1}+\cdots+t_{k} \mathbf{v}_{k}: t_{i} \in \mathbb{R}\right\} $$

注意 $\mathbf{v}_{i} \in \operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}$ 对于所有 $1 \leq i \leq k$ 都成立(取 $t_{j}=0, j \neq i$$t_{i}=1$)。根据逻辑惯例$\operatorname{span} \emptyset=\{\mathbf{0}\}$

向量 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$线性无关的,如果 $\sum_{i=1}^{k} t_{i} \mathbf{v}_{i}=\mathbf{0} \Longleftrightarrow t_{1}=\cdots=t_{k}=0$;它们是线性相关的,如果存在不全为 0 的 $t_{1}, \ldots, t_{k} \in \mathbb{R}$ 使得 $\sum_{i=1}^{k} t_{i} \mathbf{v}_{i}=\mathbf{0}$。很容易看出 $\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}$ 仅取决于集合 $\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}$,而 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$ 线性无关的性质取决于序列 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$(但与 $\mathbf{v}_{i}$ 的顺序无关)。例如,如果对于某些 $i \neq j$$ \mathbf{v}_{i}=\mathbf{v}_{j}$,则该序列是线性相关的,因为 $\mathbf{v}_{i}-\mathbf{v}_{j}=1 \cdot \mathbf{v}_{i}+(-1) \cdot \mathbf{v}_{j}=\sum_{k \neq i, j} 0 \cdot \mathbf{v}_{k}+1 \cdot \mathbf{v}_{i}+(-1) \cdot \mathbf{v}_{j}=\mathbf{0}$

序列 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k} \in \mathbb{R}^{n}$ 是一个,如果它是线性无关的且 $\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}=\mathbb{R}^{n}$。等价地,每个向量 $\mathbf{w} \in \mathbb{R}^{n}$ 都可以唯一地写成 $\mathbf{v}_{i}$线性组合$\mathbb{R}^{n}$标准基$\mathbf{e}_{1}, \ldots, \mathbf{e}_{n}$,其中 $\mathbf{e}_{i}$ 的分量除了第 $i$ 个分量为 1 外,其余都为 0。因此,每个向量 $\mathbf{v}=\left(v_{1}, \ldots, v_{n}\right)$ 都可以唯一地用标准基表示:$\mathbf{v}=\sum_{i=1}^{n} v_{i} \mathbf{e}_{i}$

📖 [逐步解释]

这部分内容定义了线性代数中四个相互关联的核心概念:线性组合张成线性无关。这些概念是描述和理解向量空间结构的关键。

  1. 线性组合 (Linear Combination)
    • 这是最基本的构造模块。给定一组向量 $\{\mathbf{v}_1, \ldots, \mathbf{v}_k\}$ 和一组标量 $\{t_1, \ldots, t_k\}$
    • 表达式 $t_1\mathbf{v}_1 + t_2\mathbf{v}_2 + \cdots + t_k\mathbf{v}_k$ 就被称为这些向量的一个线性组合
    • 本质上,线性组合就是对一些基本向量进行“缩放”(通过标量乘法)然后“相加”(通过向量加法)得到的新向量
  2. 张成 (Span)
    • 一个向量集合的张成,是指由这组向量能够通过线性组合生成的所有向量的集合。
    • 符号 span 就是指这个集合。
    • 例如,$\operatorname{span}\{\mathbf{v}_1, \mathbf{v}_2\}$ 就是所有形如 $t_1\mathbf{v}_1 + t_2\mathbf{v}_2$向量的集合,其中 $t_1, t_2$ 可以是任意实数
    • 几何上,两个不共线的向量在三维空间中张成的是一个平面。一个非零向量张成的是一条穿过原点的直线。
    • 作者提到,任何一个向量 $\mathbf{v}_i$ 本身都属于它所在集合的张成,因为我们可以选择系数 $t_i=1$,而其他所有系数 $t_j=0$
    • span $\emptyset = \{\mathbf{0}\}$ 是一个约定。空集无法进行线性组合,我们约定它生成零向量。这在理论上是必要的,因为零向量构成的空间是维度最小的子空间
  3. 线性无关 (Linearly Independent) 与 线性相关 (Linearly Dependent)
    • 这两个概念是互斥的,用来描述一组向量的“冗余”程度。
    • 线性无关:一组向量被称为线性无关,如果唯一能让它们的线性组合等于零向量的方法,就是让所有的标量系数都为零。
    • $\sum t_i \mathbf{v}_i = \mathbf{0}$ 能够推出的结论必然是 $t_1=t_2=\cdots=t_k=0$
    • 直观意义:这组向量里没有任何一个是“多余”的。你无法用其他向量线性组合来表示出其中任何一个向量。每一个向量都指向一个“新的维度”。
    • 线性相关:如果存在 不全为零 的一组标量系数,使得线性组合的结果是零向量,那么这组向量就是线性相关的。
    • 直观意义:这组向量里至少有一个是“多余”的、可以被其他向量表示出来的。例如,如果 $t_1\mathbf{v}_1 + t_2\mathbf{v}_2 = \mathbf{0}$$t_1 \neq 0$,那么 $\mathbf{v}_1 = (-\frac{t_2}{t_1})\mathbf{v}_2$,说明 $\mathbf{v}_1$$\mathbf{v}_2$ 指向相同或相反的方向(共线),其中一个是多余的。
    • 作者给出了一个例子:如果一个序列中包含重复的向量,比如 $\mathbf{v}_i = \mathbf{v}_j$,那么这个序列一定是线性相关的。因为我们可以构造一个线性组合 $1 \cdot \mathbf{v}_i + (-1) \cdot \mathbf{v}_j = \mathbf{0}$,这里的系数 1 和 -1 不全为零。
  4. 基 (Basis)
    • 向量空间的“骨架”。一个向量序列要成为一个,必须同时满足两个条件:
  5. 它们是线性无关的(没有冗余)。
  6. 它们可以张成整个空间(足够表达空间中的任何向量)。
    • 等价定义:一个向量集合是一个,当且仅当空间中的任何一个向量都可以被这个集合中的向量 唯一地 线性组合出来。
    • “可以组合出来”对应“张成”性质。
    • “唯一地”对应“线性无关”性质。如果组合方式不唯一,说明有冗余,也就是线性相关
    • 标准基 (Standard Basis):这是 $\mathbb{R}^n$ 空间中最简单、最自然的一组
    • $\mathbf{e}_1 = (1, 0, \ldots, 0)$
    • $\mathbf{e}_2 = (0, 1, \ldots, 0)$
    • ...
    • $\mathbf{e}_n = (0, 0, \ldots, 1)$
    • 任何一个向量 $\mathbf{v}=(v_1, \ldots, v_n)$ 都可以非常容易地用标准基表示出来:$\mathbf{v} = v_1\mathbf{e}_1 + v_2\mathbf{e}_2 + \cdots + v_n\mathbf{e}_n$。这里的系数恰好就是向量本身的分量。
∑ [公式拆解]

公式:

$$ \operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}=\left\{t_{1} \mathbf{v}_{1}+\cdots+t_{k} \mathbf{v}_{k}: t_{i} \in \mathbb{R}\right\} $$

  • span{...}:一个数学算符,表示取花括号内向量集合的“张成”。
  • $\{\mathbf{v}_1, \ldots, \mathbf{v}_k\}$:一个包含 $k$向量的集合。
  • $=$:等于号。
  • $\{$...$\}$:右边是一个用描述法定义的集合。
  • $t_1\mathbf{v}_1 + \cdots + t_k\mathbf{v}_k$:这是集合中元素的通用形式,即一个线性组合
  • $:$:冒号,读作“使得”。
  • $t_i \in \mathbb{R}$:对系数的约束条件,意味着每个系数 $t_i$ 都可以是任意的实数

整个公式的含义是:span{...} 这个集合,包含了所有你能通过选择不同的实数系数 $t_i$ 而构造出来的线性组合

💡 [数值示例]

我们在 $\mathbb{R}^2$ 空间中举例。

  • $\mathbf{v}_1 = (1, 0)$ (即 $\mathbf{e}_1$), $\mathbf{v}_2 = (0, 1)$ (即 $\mathbf{e}_2$), $\mathbf{v}_3 = (2, 3)$, $\mathbf{v}_4 = (2, 0)$

示例 1:线性组合与张成

  • $\mathbf{v}_1$$\mathbf{v}_2$ 的一个线性组合$3\mathbf{v}_1 + 2\mathbf{v}_2 = 3(1,0) + 2(0,1) = (3,0) + (0,2) = (3,2)$
  • $\operatorname{span}\{\mathbf{v}_1\}$ 是所有形如 $t_1(1,0) = (t_1, 0)$向量集合。这是 x 轴。
  • $\operatorname{span}\{\mathbf{v}_1, \mathbf{v}_2\}$ 是所有形如 $t_1(1,0) + t_2(0,1) = (t_1, t_2)$向量集合。这可以表示 $\mathbb{R}^2$ 中的任何向量,所以 $\operatorname{span}\{\mathbf{v}_1, \mathbf{v}_2\} = \mathbb{R}^2$

示例 2:线性无关与线性相关

  • 向量组 $\{\mathbf{v}_1, \mathbf{v}_2\}$
  • 我们要解方程 $t_1\mathbf{v}_1 + t_2\mathbf{v}_2 = \mathbf{0}$,即 $t_1(1,0) + t_2(0,1) = (0,0)$
  • 这得到 $(t_1, t_2) = (0,0)$
  • 唯一的解是 $t_1=0, t_2=0$。因此,$\{\mathbf{v}_1, \mathbf{v}_2\}$线性无关的。
  • 向量组 $\{\mathbf{v}_1, \mathbf{v}_4\}$
  • 我们要解方程 $t_1\mathbf{v}_1 + t_2\mathbf{v}_4 = \mathbf{0}$,即 $t_1(1,0) + t_2(2,0) = (0,0)$
  • 这得到 $(t_1+2t_2, 0) = (0,0)$,也就是 $t_1+2t_2=0$
  • 这个方程有非零解,例如 $t_1=2, t_2=-1$
  • 因为我们找到了不全为零的系数,所以 $\{\mathbf{v}_1, \mathbf{v}_4\}$线性相关的。这很直观,因为它们都指向 x 轴方向。

示例 3:基

  • 向量组 $\{\mathbf{v}_1, \mathbf{v}_2\}$
  • 它们是线性无关的(已证)。
  • 它们可以张成整个 $\mathbb{R}^2$ 空间(已证)。
  • 所以,$\{\mathbf{v}_1, \mathbf{v}_2\}$$\mathbb{R}^2$ 的一个。(它就是标准基)。
  • 向量组 $\{\mathbf{v}_1, \mathbf{v}_3\}$,即 $\{(1,0), (2,3)\}$
  • 线性无关性$t_1(1,0) + t_2(2,3) = (0,0) \Rightarrow (t_1+2t_2, 3t_2) = (0,0)$。由 $3t_2=0$$t_2=0$,代入 $t_1+2t_2=0$$t_1=0$。所以它们是线性无关的。
  • 张成性:可以证明它们能张成 $\mathbb{R}^2$。所以 $\{(1,0), (2,3)\}$ 也是 $\mathbb{R}^2$ 的一个
⚠️ [易错点]
  1. 线性相关不等于比例关系:对于两个向量线性相关等价于它们共线(一个可以写成另一个的标量倍)。但对于三个或更多向量线性相关仅意味着其中至少一个可以被 其他向量的线性组合 表示,不一定是简单的比例关系。例如,在 $\mathbb{R}^3$ 中,$\{(1,0,0), (0,1,0), (1,1,0)\}$线性相关的,因为第三个是前两个的和,但它们任何两个之间都不是比例关系。
  2. 基不唯一:一个向量空间有无穷多组不同的标准基只是其中最简单的一组。
  3. 向量的顺序:对于“张成”这个概念,向量的顺序无所谓,span关心的是向量的集合。但对于“线性无关”,严格来说它是一个序列的性质。不过,如果一个序列是线性无关的,打乱它的顺序后仍然是线性无关的。作者提到这点是为了强调定义的精确性。
📝 [总结]

本段定义了线性代数的四个基石概念。线性组合是基本的“制造”向量的操作。张成是考察一组向量能“制造”出多大一片空间。线性无关/相关是考察一组向量内部是否存在“冗余”。而,则是对一个向量空间的完美描述:它是一组最经济(线性无关,无冗余)的“原材料”(向量),通过它们却足以构建出整个空间(张成整个空间)。标准基$\mathbb{R}^n$ 中最直观的一组

🎯 [存在目的]

这些概念是线性代数语言的“词汇”。没有它们,就无法精确地讨论向量空间的结构。

  1. 量化空间张成线性无关的概念最终导向“维数”的定义(即一个包含的向量个数)。这使得我们能量化一个抽象空间的大小。
  2. 建立坐标系的本质就是在一个抽象的向量空间中建立一个“坐标系”。一旦选定了一组,空间中的任何一个向量都可以用一个唯一的坐标(即线性组合系数)来表示。这使得我们可以将抽象的向量运算转化为我们熟悉的数字(坐标)运算。标准基对应的就是我们最熟悉的直角坐标系。
  3. 解决线性方程组:这些概念与解线性方程组 $A\mathbf{x}=\mathbf{b}$ 密切相关。例如,方程有解当且仅当向量 $\mathbf{b}$矩阵 $A$ 的列向量张成空间中。解唯一当且仅当 $A$ 的列向量线性无关的。
🧠 [直觉心智模型]
  1. 原材料和产品
  2. 基向量:像乐高积木里的几种最基本的砖块(比如 $1 \times 1$, $1 \times 2$, $2 \times 2$ 的砖)。
  3. 线性组合:用这些基本砖块拼装的过程。
  4. 张成空间:用这几类基本砖块所有可能的拼法,能够搭出来的所有模型的集合。
  5. 线性无关:这些基本砖块是“高效”的,没有一种砖块可以被其他几种砖块拼出来。比如,一个 $2 \times 2$ 的砖块是高效的,但一个 $1 \times 4$ 的砖块可能是“冗余”的,因为它可以被两个 $1 \times 2$ 的砖块拼出来。
  6. :一套最精简但功能完备的“基本砖块”,它们之间互不冗余(线性无关),但足以拼出你想要的任何模型(张成整个空间)。
💭 [直观想象]
  1. 在三维世界中移动
  2. 基向量:你可以移动的三个基本方向:“向前/后”(x轴),“向左/右”(y轴),“向上/下”(z轴)。这就是标准基 $\{\mathbf{e}_1, \mathbf{e}_2, \mathbf{e}_3\}$
  3. 线性组合:一个指令,比如“向前走3米,向右走2米,向上走5米”。这就是线性组合 $3\mathbf{e}_1 + 2\mathbf{e}_2 + 5\mathbf{e}_3$
  4. 张成空间:你能通过这些指令到达的所有点的集合。如果你只有“向前/后”和“向左/右”两个基本方向(一个二维的),你只能在地面上移动(张成一个平面),永远无法到达空中的点。
  5. 线性无关:这三个基本方向是线性无关的,因为你无法通过“向前/后”和“向左/右”的移动组合,来实现“向上/下”的效果。
  6. :这三个方向构成一个,因为它们是线性无关的,并且通过它们的组合你可以到达三维空间中的任何一点。
42.1.4 线性代数基本事实

📜 [原文7]

以下是一个基本的线性代数事实:

命题 4.1.3. 令 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k} \in \mathbb{R}^{n}$

(i) 如果 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$ 线性无关,则 $k \leq n$

(ii) 如果 $\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}=\mathbb{R}^{n}$,则 $k \geq n$

(iii) 如果 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$$\mathbb{R}^{n}$,则 $k=n$

(iv) 如果 $k=n$,则 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{n}$ 线性无关 $\Longleftrightarrow \operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{n}\right\}=\mathbb{R}^{n} \Longleftrightarrow \mathbf{v}_{1}, \ldots, \mathbf{v}_{n}$$\mathbb{R}^{n}$

(v) $\mathbb{R}^{n}$ 中任何一组线性无关向量都可以扩展成 $\mathbb{R}^{n}$。如果 $\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}=\mathbb{R}^{n}$,那么存在一个序列 $\mathbf{v}_{i_{1}}, \ldots, \mathbf{v}_{i_{n}}$,其项是 $\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}$ 的元素,并且它是一个

📖 [逐步解释]

这部分内容陈述了关于维数线性无关张成之间关系的五个核心定理。这些定理构成了有限维向量空间理论的基石,虽然此处未提供证明,但它们是线性代数课程中的关键结论。

  1. 命题 4.1.3 (i)
    • 内容:在一个 $n$ 维空间 ($\mathbb{R}^n$) 中,线性无关向量个数最多不能超过 $n$
    • 直观理解:在三维空间里,你最多只能找到三个“相互独立”的方向(比如墙角的三条棱线)。如果你试图引入第四个方向的箭头,那么这个箭头一定可以被前三个方向的箭头组合表示出来,它躺在前三个箭头构成的“坐标系”里。因此,四个或更多的向量在三维空间中必然是线性相关的。
  2. 命题 4.1.3 (ii)
    • 内容:如果要张成整个 $n$ 维空间,你至少需要 $n$向量
    • 直观理解:在三维空间里,只用两个向量,你最多只能张成一个平面,无法覆盖整个三维空间。你需要至少三个向量(而且它们还不能共面)才有可能填满整个空间。
  3. 命题 4.1.3 (iii)
    • 内容$\mathbb{R}^n$ 的任何一个都恰好包含 $n$向量
    • 推导:这是 (i) 和 (ii) 的直接结果。根据的定义,它既要线性无关,又要能张成整个空间。
    • 由 (i),作为线性无关向量组,其个数 $k$ 必须 $k \leq n$
    • 由 (ii),作为能张成 $\mathbb{R}^n$向量组,其个数 $k$ 必须 $k \geq n$
    • 同时满足 $k \leq n$$k \geq n$ 的唯一可能性就是 $k=n$
    • 意义:这个结论极其重要,它说明了“维数”是一个向量空间内在的、不变的属性。无论你选择哪一套(坐标系),构成这个向量数量总是一个固定的数 $n$。这个数 $n$ 就被定义为向量空间维数
  4. 命题 4.1.3 (iv)
    • 内容:对于一个恰好包含 $n$向量向量组(在 $n$ 维空间中),“线性无关”和“张成整个空间”这两个条件是等价的。只要满足其中一个,另一个就自动满足,并且这个向量组就是一个
    • 意义:这是一个非常强大的简化工具。在判断 $n$向量是否构成 $n$ 维空间的时,我们不再需要同时检验线性无关张成性这两个条件。
    • 我们只需要检验它们是否线性无关。如果是,它们就自动能张成整个空间,从而构成一个
    • 或者,我们只需要检验它们是否能张成整个空间。如果是,它们就自动是线性无关的,从而构成一个
    • 在实际计算中,判断 $n$$n$向量是否线性无关(通常通过计算它们构成的矩阵行列式是否非零)往往比证明它们能张成整个空间要容易得多。
  5. 命题 4.1.3 (v)
    • 内容:这描述了的“可扩展性”和“可收缩性”。
    • 第一部分(扩展):任何一组线性无关向量,如果它还不足以构成一个(因为它包含的向量个数少于 $n$),那么我们总可以从空间中挑选一些新的向量加入进来,把它“扩充”成一个完整的
    • 直观理解:在三维空间中,如果你有两个线性无关向量(它们张成一个平面),你总能找到第三个不在此平面内的向量,把它加进来构成三维空间的一个
    • 第二部分(收缩):如果一组向量能够张成整个空间,但它包含的向量个数多于 $n$(因此它必然是线性相关的,有冗余),那么我们总可以从这组向量中“剔除”掉一些多余的向量,剩下的向量构成一个
    • 直观理解:在三维空间中,你有四个向量可以张成整个空间。那么这四个向量中至少有一个是多余的,可以被其他向量表示。你把它扔掉,剩下的三个(或更少,直到线性无关为止)可能仍然能张成整个空间。这个过程可以一直进行下去,直到你得到一个不多不少,正好包含 $n$线性无关向量
💡 [数值示例]

我们在 $\mathbb{R}^3$ 中举例 (n=3)。

  • 向量组 A: $\{(1,0,0), (0,1,0)\}$$k=2$
  • 它们是线性无关的。根据 (i),$k=2 \leq n=3$,成立。
  • 它们不能张成 $\mathbb{R}^3$,只能张成 xy 平面。根据 (ii),$k=2 < n=3$,所以不能张成整个空间,成立。
  • 根据 (v),我们可以扩展它。加入向量 $(0,0,1)$,得到 $\{(1,0,0), (0,1,0), (0,0,1)\}$,这就是 $\mathbb{R}^3$ 的一个
  • 向量组 B: $\{(1,0,0), (0,1,0), (0,0,1), (1,1,1)\}$$k=4$
  • 根据 (i),因为 $k=4 > n=3$,所以这组向量必然是线性相关的。事实上,$(1,1,1)$ 是前三个的和。
  • 它们可以张成 $\mathbb{R}^3$。根据 (ii),$k=4 \geq n=3$,这与结论相符。
  • 根据 (v),我们可以从中收缩出一个。例如,去掉 $(1,1,1)$,剩下的 $\{(1,0,0), (0,1,0), (0,0,1)\}$ 就是一个
  • 向量组 C: $\{(1,1,0), (1,-1,0), (0,0,1)\}$$k=3$
  • 我们想判断这是否是 $\mathbb{R}^3$ 的一个。因为 $k=n=3$,根据 (iv),我们只需要检验一个条件即可。我们来检验线性无关性。
  • $t_1(1,1,0) + t_2(1,-1,0) + t_3(0,0,1) = (0,0,0)$
  • $(t_1+t_2, t_1-t_2, t_3) = (0,0,0)$
  • 这给出了方程组:$t_1+t_2=0$, $t_1-t_2=0$, $t_3=0$
  • 前两个方程的唯一解是 $t_1=0, t_2=0$。所以唯一解是 $t_1=t_2=t_3=0$
  • 因此,这组向量线性无关的。
  • 根据 (iv),我们无需再检验它们是否能张成 $\mathbb{R}^3$,就可以直接断定,它们是 $\mathbb{R}^3$ 的一个
⚠️ [易错点]
  1. 定理的适用范围:这些定理都建立在“有限维向量空间的基础上。对于无限维空间(例如所有连续函数的空间),情况要复杂得多。
  2. (iv) 的滥用:定理 (iv) 只在向量个数 $k$ 恰好等于空间维数 $n$ 时才成立。如果 $k \neq n$,则线性无关张成性不再等价。
  3. 扩展/收缩的非唯一性:从一个线性无关集扩展成一个,或者从一个张成集收缩成一个,方法都不是唯一的。在上面的例子 B 中,我们也可以去掉 $(1,0,0)$,剩下的 $\{(0,1,0), (0,0,1), (1,1,1)\}$ 同样可以构成一个
📝 [总结]

本段的五个命题是有限维向量空间理论的核心。它们深刻地揭示了维数($n$)、向量个数($k$)、线性无关性、张成性以及这些概念之间的内在联系。总结起来:

  1. 维数 $n$ 是一个标杆。
  2. 线性无关向量组不能太“大”,其大小 $k \le n$
  3. 张成空间的向量组不能太“小”,其大小 $k \ge n$
  4. 的大小则必须刚刚好,$k=n$
  5. 向量组大小恰好是 $n$ 时,线性无关张成性“合二为一”,成为一个更易于判断的条件。
  6. 任何“不足”的线性无关组都可以被补全成一个,任何“冗余”的张成组都可以被精简成一个
🎯 [存在目的]

本段的目的在于建立向量空间的“宏观”理论。如果说之前的定义是“微观”的词汇,那么这些命-p ... (message truncated)

题是“宏观”的,那么这些命题就是联通宏观与微观的桥梁。它们将向量空间的整体属性(维数)与局部元素的性质(线性无关张成)紧密地联系在一起,使得我们可以通过研究有限个向量来推断整个空间的结构。

🧠 [直觉心智模型]
  1. 空间与维度:想象一个 n 维空间是一个有 n 个“自由度”的系统。
  2. 线性无关的向量:每一个线性无关向量都“锁定”或“占据”了一个自由度。你在 n 维空间中,最多只能锁定 n 个自由度。所以线性无关向量不能超过 n 个。
  3. 张成空间的向量:要“控制”或“到达”所有 n 个自由度,你至少需要 n 个独立的控制杆。所以能张成空间的向量至少要有 n 个。
  4. :一套不多不少,正好有 n 个独立控制杆的系统,可以让你精确地控制所有 n 个自由度。
  5. 命题(iv):当你手中正好有 n 个控制杆时,“它们是独立的”和“它们能控制所有自由度”是同一件事。
  6. 命题(v):如果你有少于 n 个的独立控制杆,你总可以再添加一些新的独立控制杆,直到凑够 n 个。如果你有多于 n 个的控制杆,那么其中一定有“功能重复”的,你可以扔掉一些,直到剩下 n 个独立的。
💭 [直观想象]
  1. 调配颜色
  2. 假设你的目标是调配出“所有可能的颜色”(这是一个抽象的向量空间)。
  3. 实验发现,只需要“红、绿、蓝”三种原色(一个),就可以混合出所有颜色。所以这个颜色空间的维数是 3 (n=3)。
  4. 命题(i):你不可能找到4种或更多“彼此无法混合出来”的原色。例如,如果你有红、绿、蓝、黄,那么“黄”是多余的,因为它可以由红和绿混合出来,它们不是线性无关的。
  5. 命题(ii):只用“红、绿”两种原色,你无法调配出纯蓝色,所以你无法张成整个颜色空间。你需要至少3种原色。
  6. 命题(iii):任何一套能调配出所有颜色且自身无冗余的“原色”组合,都正好是3种颜色。
  7. 命-p(iv):如果你正好拿了3种原色(比如“青、品红、黄”),那么你只需要测试它们是不是线性无关的(比如,青色无法由品红和黄色混合而成),就可以断定它们一定能调配出所有颜色,是一套新的
  8. 命题(v):如果你只有“红、绿”两种原色(线性无关),你可以再加入“蓝色”来构成一个完整的。如果你有“红、绿、蓝、黄、紫”五种颜色(能张成整个颜色空间),你可以去掉冗余的“黄”和“紫”,剩下“红、绿、蓝”这个
52.1.5 向量子空间

📜 [原文8]

定义 4.1.4. $\mathbb{R}^{n}$向量子空间或简称子空间是一个非空子集 $V$,使得 $V$向量运算下是封闭的:对于所有 $\mathbf{v}, \mathbf{w} \in V$$t \in \mathbb{R}$$\mathbf{v}+\mathbf{w} \in V$$t \mathbf{v} \in V$。由此可知,对于 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k} \in V$$\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\} \subseteq V$。关于 $V$ 中的 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$ 何时张成 $V$ 以及何时它们是 $V$,有自然的定义。

命题 4.1.5. (i) $\mathbb{R}^{n}$ 的子集 $V$$\mathbb{R}^{n}$向量子空间 $\Longleftrightarrow$ 存在 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k} \in \mathbb{R}^{n}$ 使得 $V=\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}$。特别是,$\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}$ 总是向量子空间,并且它是包含 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$ 的最小子空间

(ii) $\mathbb{R}^{n}$向量子空间 $V$ 的任意两个具有相同的长度,我们将其记作 $\operatorname{dim} V$

(iii) 如果 $V$$\mathbb{R}^{n}$向量子空间,则 $0 \leq \operatorname{dim} V \leq n$。此外,$\operatorname{dim} V=0 \Longleftrightarrow V=\{\mathbf{0}\}$$\operatorname{dim} V=n \Longleftrightarrow V=\mathbb{R}^{n}$

📖 [逐步解释]

这部分内容引入了向量子空间的概念,并给出了它与“张成”的等价关系,以及子空间维数的性质。

  1. 定义 4.1.4:向量子空间的定义
    • 子空间是“大空间” $\mathbb{R}^n$ 内部的一个“小空间”。它本身也必须是一个向量空间
    • 要成为一个子空间,一个子集 $V \subseteq \mathbb{R}^n$ 必须满足三个条件:
  2. 非空 (Non-empty)$V$ 至少要包含一个向量。(实际上,任何子空间都必须包含零向量 $\mathbf{0}$,所以这个条件通常通过检验 $\mathbf{0} \in V$ 来满足)。
  3. 对加法封闭 (Closed under addition)$V$ 里的任意两个向量相加,结果仍然在 $V$ 里面,不会“跑出去”。
  4. 对标量乘法封闭 (Closed under scalar multiplication)$V$ 里的任意一个向量乘以任意一个标量,结果也仍然在 $V$ 里面。
    • 一个直接的推论是:如果一个子空间 $V$ 包含向量 $\mathbf{v}_1, \ldots, \mathbf{v}_k$,那么它必然包含这些向量的所有线性组合。因为线性组合就是通过标量乘法向量加法构造出来的,而 $V$ 对这两种运算都是封闭的。这意味着 $\operatorname{span}\{\mathbf{v}_1, \ldots, \mathbf{v}_k\}$ 整个都包含在 $V$ 中。
    • 最后,作者提到,对于一个子空间 $V$ 自身而言,我们也可以讨论它里面的向量何时能张成 $V$,以及何时构成 $V$ 的一个。这些概念是普适的。
  5. 命题 4.1.5 (i):子空间与张成的等价性
    • 这个命题建立了一个至关重要的联系:子空间张成空间其实是同一回事。
    • 正向 ($\Rightarrow$):如果 $V$ 是一个子空间,那么它总可以被看作是某组向量张成。我们可以找到 $V$ 的一个 $\{\mathbf{v}_1, \ldots, \mathbf{v}_k\}$,那么 $V = \operatorname{span}\{\mathbf{v}_1, \ldots, \mathbf{v}_k\}$
    • 反向 ($\Leftarrow$):任何一组向量张成空间 $W = \operatorname{span}\{\mathbf{v}_1, \ldots, \mathbf{v}_k\}$,它自身一定是一个向量子空间
    • 证明:我们需要验证子空间的三个条件。
  6. 非空$W$ 至少包含零向量(所有系数取0)。
  7. 对加法封闭:取 $W$ 中任意两个向量 $\mathbf{a} = \sum t_i\mathbf{v}_i$$\mathbf{b} = \sum s_i\mathbf{v}_i$。它们的和 $\mathbf{a}+\mathbf{b} = \sum(t_i+s_i)\mathbf{v}_i$ 仍然是 $\mathbf{v}_i$线性组合,所以也在 $W$ 中。
  8. 对标量乘法封闭:取 $W$ 中任意一个向量 $\mathbf{a} = \sum t_i\mathbf{v}_i$ 和任意标量 $c$$c\mathbf{a} = c\sum t_i\mathbf{v}_i = \sum(ct_i)\mathbf{v}_i$ 仍然是 $\mathbf{v}_i$线性组合,所以也在 $W$ 中。
    • “最小子空间”的含义:包含向量$\{\mathbf{v}_1, \ldots, \mathbf{v}_k\}$子空间可能有很多,但 $\operatorname{span}\{\mathbf{v}_1, \ldots, \mathbf{v}_k\}$ 是其中最小的那一个。任何其他包含这些向量子空间,都必然把 $\operatorname{span}\{\mathbf{v}_1, \ldots, \mathbf{v}_k\}$ 作为自己的一个子集
  9. 命题 4.1.5 (ii):子空间的维数
    • 这个命题将维数的概念推广到子空间
    • 一个子空间 $V$ 也是一个向量空间,所以它也有
    • 关键结论是:$V$ 的任意一个所包含的向量数量都是相同的。这个不变的数值就被定义为子空间 $V$维数,记作 $\operatorname{dim} V$
    • 例如,在 $\mathbb{R}^3$ 中,任何一个穿过原点的平面都是一个子空间,它的任何一组都由2个向量构成,所以它的维数是2。
  10. 命题 4.1.5 (iii):子空间维数的范围
    • 一个在 $\mathbb{R}^n$ 中的子空间 $V$,其维数不可能是任意值。它必须在 0 到 $n$ 之间。$\operatorname{dim} V \le n$ 是因为子空间 $V$ 中的线性无关向量个数不能超过大空间 $\mathbb{R}^n$维数 $n$
    • 两个极端的例子:
    • 维数为 0:唯一的 0 维子空间就是只包含零向量的集合 $\{\mathbf{0}\}$。它的是空集 $\emptyset$
    • 维数为 n:如果一个子空间维数达到了 $n$,那么它就不是“子”空间了,它就是整个大空间 $\mathbb{R}^n$ 本身。
💡 [数值示例]

我们在 $\mathbb{R}^3$ 空间中举例。

  • 示例 1$V = \{(x,y,0) : x,y \in \mathbb{R}\}$。这是 xy 平面。
  • 验证子空间
  1. 非空$(0,0,0) \in V$
  2. 加法封闭$(x_1, y_1, 0) + (x_2, y_2, 0) = (x_1+x_2, y_1+y_2, 0)$,结果的第三个分量是0,所以仍在 $V$ 中。
  3. 标量乘法封闭$t(x,y,0) = (tx, ty, 0)$,结果仍在 $V$ 中。
    • 因此 $V$ 是一个子空间
    • 与张成的关系$V = \operatorname{span}\{(1,0,0), (0,1,0)\}$
    • 基与维数$\{(1,0,0), (0,1,0)\}$$V$ 的一组,它包含2个向量,所以 $\operatorname{dim} V = 2$
  • 示例 2$L = \{(t, 2t, -t) : t \in \mathbb{R}\}$。这是一条穿过原点的直线。
  • 可以验证它也是一个子空间
  • $L = \operatorname{span}\{(1, 2, -1)\}$
  • $\{(1,2,-1)\}$$L$ 的一组,它包含1个向量,所以 $\operatorname{dim} L = 1$
  • 示例 3 (非子空间)$S = \{(x,y) : x \ge 0, y \ge 0\}$。这是 $\mathbb{R}^2$ 中的第一象限。
  • 它对加法是封闭的,但对标量乘法不是。
  • 例如,$\mathbf{v}=(1,1) \in S$。但如果我们取标量 $t=-1$,那么 $t\mathbf{v} = (-1,-1)$,这个向量不在 $S$ 中。
  • 所以 $S$ 不是一个向量子空间
⚠️ [易错点]
  1. 子空间必须过原点:一个常见的误解是认为 $\mathbb{R}^3$ 中任何一个平面或直线都是子空间。这是错误的。一个子空间必须包含零向量。所以,一个不过原点的平面,比如 $z=1$,它就不是子空间
  2. 子集与子空间的区别:任何一部分向量的集合都是子集,但只有满足那三条封闭性条件的子集才能被称为子空间
  3. 平凡子空间:任何一个向量空间 $\mathbb{R}^n$ (当 $n>0$ 时) 都至少有两个子空间:它自身 $\mathbb{R}^n$,和只包含零向量子空间 $\{\mathbf{0}\}$。这两个被称为“平凡子空间”。
📝 [总结]

本段定义了向量子空间这个核心概念,它是大向量空间内部保持了向量空间完整结构(对加法和标量乘法封闭)的非空子集。命题 4.1.5 进一步阐明了子空间的本质:它们有且仅有张成空间这一种形式。这为我们提供了一个从具体向量出发来构造子空间的通用方法。最后,将维数的概念从整个空间推广到了子空间,并指出了子空间维数介于0和原空间维数 $n$ 之间,为我们量化子空间的大小提供了依据。

🎯 [存在目的]

子空间的概念在线性代数中无处不在,其目的是:

  1. 分解复杂空间:研究一个高维的、复杂的向量空间,往往可以通过研究它的各种子空间来进行。子空间是更简单、更低维、更易于理解的组成部分。
  2. 描述核心结构:许多重要的集合本身就是子空间。例如,一个齐次线性方程组 $A\mathbf{x}=\mathbf{0}$ 的所有解的集合,就是一个向量子空间,我们称之为矩阵 $A$ 的“零空间”或“”。一个矩阵所有列向量张成空间,也是一个子空间,我们称之为“列空间”或“”。这些子空间维数揭示了矩阵线性变换的深刻性质。
  3. 提供几何直观:在 $\mathbb{R}^2$$\mathbb{R}^3$ 中,非平凡的子空间就是穿过原点的直线和平面。子空间的概念将这种直观的几何图像推广到了任意高维空间。
🧠 [直觉心智模型]
  1. 大工厂与小车间
  2. $\mathbb{R}^n$ 是一个巨大的工厂,里面可以进行两种操作:把两个零件“焊接”在一起(向量加法),以及把一个零件“放大/缩小”(标量乘法)。
  3. 一个子空间 $V$ 是这个大工厂里的一个“独立小车间”。这个小车间也必须满足:它不是空的;在里面随便拿两个零件焊接,成品还在这个车间里;在里面随便拿一个零件放大缩小,成品也还在这个车间里。它是一个自给自足的生产环境。
  4. 张成空间就是这样一个车间:你给它提供几件“原型零件”(一组向量),这个车间就是所有能通过焊接和缩放这些原型而制造出来的所有产品的集合。
💭 [直观想象]
  1. 一张无限大的白纸 ($\mathbb{R}^2$)
  2. 子空间的例子:
  3. 整个白纸本身是一个2维子空间
  4. 在白纸上画一条穿过原点的无限长的直线。这条直线就是一个1维子空间。你在这条线上的任意两点(看作向量)相加,结果还在这条线上。你把线上的任意一点(向量)拉长或缩短,它也还在这条线上。
  5. 原点 $(0,0)$ 本身,是一个0维子空间
  6. 非子空间的例子:
  7. 一条不过原点的直线。它不包含零向量
  8. 一个圆。它对加法和标量乘法都不封闭。
  9. x轴的正半轴。它对乘以负数的标量乘法不封闭。
22.2 内积与正交性
12.2.1 点积(内积)的定义

📜 [原文9]

定义 4.1.6. 两个向量 $\mathbf{v}= \left(v_{1}, \ldots, v_{n}\right)$$\mathbf{w}=\left(w_{1}, \ldots, w_{n}\right) \in \mathbb{R}^{n}$点积标量积内积(我们称之为内积并写作 $\langle\mathbf{v}, \mathbf{w}\rangle$)定义为

$$ \langle\mathbf{v}, \mathbf{w}\rangle=v_{1} w_{1}+\cdots+v_{n} w_{n}=\sum_{i=1}^{n} v_{i} w_{i} $$

(如果称作点积,通常写为 $\mathbf{v} \cdot \mathbf{w}$。)两个向量的乘积是一个标量,因此得名标量积。例如,如果 $\mathbf{v}=\left(v_{1}, \ldots, v_{n}\right)$,那么 $\left\langle\mathbf{v}, \mathbf{e}_{i}\right\rangle=v_{i}$,即 $\mathbf{v}$ 的第 $i$ 个分量。我们称 $\mathbf{v}$$\mathbf{w}$ 正交,如果 $\langle\mathbf{v}, \mathbf{w}\rangle=0$

📖 [逐步解释]

这部分内容引入了一个全新的运算:内积(或称点积)。之前的向量加法标量乘法向量空间的“骨架”定义,而内积则为这个骨架增加了“血肉”,引入了长度、角度、正交等几何概念。

  1. 多样的名称
    • 作者首先列出了这个运算的三个常用名称:点积 (dot product)标量积 (scalar product)内积 (inner product)
    • 点积:因其常用符号是一个点 · 而得名,如 $\mathbf{v} \cdot \mathbf{w}$
    • 标量积:因
    • 内积:这是一个更抽象、更普适的名称。在 $\mathbb{R}^n$ 中,我们定义的这种运算是内积的一种具体实现(称为“标准内积”或“欧几里得内积”)。在更抽象的向量空间中(比如函数空间),可以定义满足同样性质的其他形式的内积。作者在这里选择使用内积的记法 $\langle \mathbf{v}, \mathbf{w} \rangle$
  2. 定义
    • 内积的计算方法非常简单:将两个向量的对应分量逐个相乘,然后将所有乘积相加。
    • 这个定义是代数的,但它背后蕴含着深刻的几何意义。
  3. 内积的应用举例
    • 提取分量:作者给出了一个非常巧妙的应用:一个向量 $\mathbf{v}$标准基向量 $\mathbf{e}_i$内积,恰好就是 $\mathbf{v}$ 的第 $i$ 个分量 $v_i$
    • 证明:$\langle \mathbf{v}, \mathbf{e}_i \rangle = \langle (v_1, \ldots, v_i, \ldots, v_n), (0, \ldots, 1, \ldots, 0) \rangle = v_1 \cdot 0 + \cdots + v_i \cdot 1 + \cdots + v_n \cdot 0 = v_i$
    • 这个性质非常有用,它说明可以通过内积运算来“探测”或“投影”一个向量在某个坐标轴上的分量。
  4. 正交 (Orthogonal) 的定义
    • 这是内积引入的最核心的几何概念之一。
    • 如果两个向量内积为零,我们就称这两个向量正交的。
    • 在二维或三维空间中,“正交”就是我们通常所说的“垂直 (perpendicular)”。
    • 这个定义将代数条件 ($\langle \mathbf{v}, \mathbf{w} \rangle = 0$) 与几何概念 (垂直) 等同起来,并将其推广到了任意高维空间。现在我们可以讨论 $\mathbb{R}^{100}$ 空间中两个向量是否“垂直”了。
∑ [公式拆解]

公式:

$$ \langle\mathbf{v}, \mathbf{w}\rangle=v_{1} w_{1}+\cdots+v_{n} w_{n}=\sum_{i=1}^{n} v_{i} w_{i} $$

  • $\langle \mathbf{v}, \mathbf{w} \rangle$内积的符号,尖括号里放两个向量
  • $v_i, w_i$:分别是向量 $\mathbf{v}$$\mathbf{w}$ 的第 $i$ 个分量。
  • $v_1w_1 + \cdots + v_nw_n$:展开形式,对应分量相乘,再求和。
  • $\sum_{i=1}^{n} v_{i} w_{i}$:求和符号的紧凑写法,与前面展开形式的含义完全相同。

这个公式本身是一个定义,而不是推导的结果。它定义了在 $\mathbb{R}^n$ 这个具体的向量空间中,我们所说的“标准内积”究竟是如何计算的。

💡 [数值示例]

我们在 $\mathbb{R}^3$ 中举例。

  • $\mathbf{v} = (1, 2, -3)$$\mathbf{w} = (4, -1, 2)$
  • $\mathbf{u} = (2, -1, 0)$$\mathbf{z} = (1, 2, 5)$

示例 1:计算内积

  • $\langle \mathbf{v}, \mathbf{w} \rangle = (1)(4) + (2)(-1) + (-3)(2) = 4 - 2 - 6 = -4$
  • 结果是一个标量 -4。

示例 2:正交向量

  • $\langle \mathbf{u}, \mathbf{z} \rangle = (2)(1) + (-1)(2) + (0)(5) = 2 - 2 + 0 = 0$
  • 因为内积为0,所以我们称向量 $\mathbf{u}$$\mathbf{z}$正交的。

示例 3:提取分量

  • $\mathbf{v} = (1, 2, -3)$
  • 与第一个标准基向量 $\mathbf{e}_1 = (1,0,0)$内积

$\langle \mathbf{v}, \mathbf{e}_1 \rangle = (1)(1) + (2)(0) + (-3)(0) = 1$。结果正是 $\mathbf{v}$ 的第一个分量。

  • 与第三个标准基向量 $\mathbf{e}_3 = (0,0,1)$内积

$\langle \mathbf{v}, \mathbf{e}_3 \rangle = (1)(0) + (2)(0) + (-3)(1) = -3$。结果正是 $\mathbf{v}$ 的第三个分量。

⚠️ [易错点]
  1. 内积与标量乘法的混淆内积 $\langle\mathbf{v}, \mathbf{w}\rangle$ 是两个向量生成一个标量标量乘法 $t\mathbf{v}$ 是一个标量和一个向量生成一个向量。两者是完全不同的运算。
  2. 零向量的正交性零向量 $\mathbf{0}$ 与任何向量 $\mathbf{v}$内积都是0 ($\langle \mathbf{0}, \mathbf{v} \rangle = \sum 0 \cdot v_i = 0$)。因此,零向量与空间中的所有向量正交
  3. 内积不满足结合律:由于内积的结果是标量,所以像 $\langle \mathbf{u}, \langle \mathbf{v}, \mathbf{w} \rangle \rangle$ 这样的表达式是没有意义的,因为它变成了向量 $\mathbf{u}$ 和一个标量内积
📝 [总结]

本段引入了内积点积)运算,它接收两个向量作为输入,输出一个标量。其计算方式是对应分量相乘后求和。内积最重要的作用是为向量空间引入了“几何度量”,特别是定义了“正交”(垂直)这一关键概念:两个向量正交当且仅当它们的内积为零。这个定义将几何直观推广到了任意高维空间。

🎯 [存在目的]

引入内积的目的是为了让向量空间不仅仅是一个只有加法和缩放的代数结构,而是成为一个可以度量长度和角度的“几何空间”(这种空间被称为内积空间欧几里得空间)。

  1. 定义几何概念:有了内积,我们马上就可以定义向量长度$\|\mathbf{v}\| = \sqrt{\langle\mathbf{v}, \mathbf{v}\rangle}$)和向量间的夹角$\cos\theta = \frac{\langle\mathbf{v}, \mathbf{w}\rangle}{\|\mathbf{v}\|\|\mathbf{w}\|}$)。
  2. 建立标准正交基正交的概念是建立“标准正交基”的基础。标准正交基是一组相互垂直的单位向量构成的,它就像我们最熟悉的直角坐标系,具有许多优良的计算性质。
  3. 投影与分解内积是进行“投影”运算的核心。我们可以将一个向量分解为在一个方向上(或一个子空间上)的分量和与其垂直的分量。这在数据分析(如最小二乘法)、信号处理(如傅里叶分析)等领域有广泛应用。
🧠 [直觉心智模型]
  1. 内积是“对齐程度”的度量
  2. 想象两个向量 $\mathbf{v}$$\mathbf{w}$
  3. $\langle \mathbf{v}, \mathbf{w} \rangle$ 的值(在对长度进行归一化后)衡量了它们指向同一方向的“一致性”程度。
  4. 如果它们指向完全相同的方向,内积达到最大正值。
  5. 如果它们指向完全相反的方向,内积达到最小负值。
  6. 如果它们相互垂直(正交),则它们在对方的方向上没有任何“分量”,没有任何“对齐”,此时内积为零。
💭 [直观想象]
  1. 推箱子
  2. 你用一个力 $\mathbf{F}$(一个向量)去推一个箱子,使箱子产生了一段位移 $\mathbf{d}$(另一个向量)。
  3. 物理学上,这个力所做的“功” (Work) 就是 $W = \mathbf{F} \cdot \mathbf{d}$,即力的点积位移。
  4. 如果你的推力方向和位移方向完全一致,做的功最大。
  5. 如果你斜着推,只有你力的一部分(在位移方向上的投影)在做功。
  6. 如果你垂直于位移方向推(比如你向上抬箱子,但箱子在水平移动),你在这个位移上没有做功,内积为零。
  7. 内积就像是计算一个向量在另一个向量方向上的“有效成分”的大小,再乘以另一个向量的大小。
22.2.2 内积的性质

📜 [原文10]

命题 4.1.7. 内积是对称的、双线性的和正定的:对于所有 $\mathbf{v}, \mathbf{w}, \mathbf{u} \in \mathbb{R}^{n}$$t \in \mathbb{R}$

$$ \begin{gathered} \langle\mathbf{v}, \mathbf{w}\rangle=\langle\mathbf{w}, \mathbf{v}\rangle . \\ \langle\mathbf{v}+\mathbf{w}, \mathbf{u}\rangle=\langle\mathbf{v}, \mathbf{u}\rangle+\langle\mathbf{w}, \mathbf{u}\rangle \text{ 且 }\langle\mathbf{u}, \mathbf{v}+\mathbf{w}\rangle=\langle\mathbf{u}, \mathbf{v}\rangle+\langle\mathbf{u}, \mathbf{w}\rangle ; \\ \langle t \mathbf{v}, \mathbf{w}\rangle=\langle\mathbf{v}, t \mathbf{w}\rangle=t\langle\mathbf{v}, \mathbf{w}\rangle ; \\ \langle\mathbf{v}, \mathbf{v}\rangle \geq 0 \text{ 且 }\langle\mathbf{v}, \mathbf{v}\rangle=0 \Longleftrightarrow \mathbf{v}=\mathbf{0} . \end{gathered} $$

📖 [逐步解释]

这部分内容罗列了内积运算所满足的四个核心性质。这些性质在更抽象的层面定义了什么是“内积”。任何一个在向量空间上定义的二元运算,只要满足这四个性质,都可以被称为一个内积

  1. 对称性 (Symmetry):
    • 公式: $\langle \mathbf{v}, \mathbf{w} \rangle = \langle \mathbf{w}, \mathbf{v} \rangle$
    • 解释: 计算内积时,两个向量的顺序无所谓。
    • 证明: $\langle \mathbf{v}, \mathbf{w} \rangle = \sum v_i w_i = \sum w_i v_i = \langle \mathbf{w}, \mathbf{v} \rangle$。这利用了实数乘法的交换律。
  2. 双线性 (Bilinearity):
    • 这个性质实际上是两个性质的结合,它描述了内积向量加法标量乘法的互动关系。它意味着,如果你固定内积中的一个向量,那么内积运算对于另一个向量来说是线性的。
    • 对第一个变量的线性:
    • 加法: $\langle \mathbf{v}+\mathbf{w}, \mathbf{u} \rangle = \langle \mathbf{v}, \mathbf{u} \rangle + \langle \mathbf{w}, \mathbf{u} \rangle$
    • 标量乘法: $\langle t\mathbf{v}, \mathbf{w} \rangle = t\langle \mathbf{v}, \mathbf{w} \rangle$
    • 对第二个变量的线性:
    • 加法: $\langle \mathbf{u}, \mathbf{v}+\mathbf{w} \rangle = \langle \mathbf{u}, \mathbf{v} \rangle + \langle \mathbf{u}, \mathbf{w} \rangle$
    • 标量乘法: $\langle \mathbf{v}, t\mathbf{w} \rangle = t\langle \mathbf{v}, \mathbf{w} \rangle$
    • 证明 (以第一个加法为例): $\langle \mathbf{v}+\mathbf{w}, \mathbf{u} \rangle = \sum (v_i+w_i)u_i = \sum (v_iu_i + w_iu_i) = \sum v_iu_i + \sum w_iu_i = \langle \mathbf{v}, \mathbf{u} \rangle + \langle \mathbf{w}, \mathbf{u} \rangle$。其他几个的证明类似,都依赖于实数的分配律和结合律。
    • 注意,因为对称性的存在,我们其实只需要证明对第一个变量的线性,对第二个变量的线性就可以自动推导出来。原文把标量乘法的两条合并写了,更清晰地展示了标量可以随意“提出”。
  3. 正定性 (Positive-definiteness):
    • 这个性质也由两部分组成,描述了一个向量与自身的内积
    • 第一部分: $\langle \mathbf{v}, \mathbf{v} \rangle \ge 0$
    • 解释: 任何一个向量与自身的内积永远是非负的。
    • 证明: $\langle \mathbf{v}, \mathbf{v} \rangle = \sum v_i v_i = \sum v_i^2$。因为 $v_i$实数$v_i^2$ 永远大于等于0。一堆非负数的和当然也是非负的。
    • 第二部分: $\langle \mathbf{v}, \mathbf{v} \rangle = 0 \Longleftrightarrow \mathbf{v} = \mathbf{0}$
    • 解释: 一个向量与自身的内积等于0,当且仅当这个向量本身就是零向量
    • 证明:
    • ($\Leftarrow$) 如果 $\mathbf{v}=\mathbf{0}$,那么所有 $v_i=0$,所以 $\langle \mathbf{v}, \mathbf{v} \rangle = \sum 0^2 = 0$
    • ($\Rightarrow$) 如果 $\langle \mathbf{v}, \mathbf{v} \rangle = 0$,那么 $\sum v_i^2 = 0$。因为每一项 $v_i^2$ 都是非负的,一堆非负数相加等于0,唯一的可能性就是每一项都必须是0。即对于所有的 $i$ 都有 $v_i^2=0$,这意味着 $v_i=0$。所以 $\mathbf{v}=(0, \ldots, 0) = \mathbf{0}$
    • 意义: 正定性是后面定义“长度”或“范数”的合法性的保证。长度必须是非负的,并且只有“零向量”的长度才是零。
💡 [数值示例]

使用之前的例子:$\mathbf{v}=(1,2), \mathbf{w}=(3,4), \mathbf{u}=(5,6)$, $t=2$

示例 1:对称性

  • $\langle \mathbf{v}, \mathbf{w} \rangle = 1 \cdot 3 + 2 \cdot 4 = 3 + 8 = 11$
  • $\langle \mathbf{w}, \mathbf{v} \rangle = 3 \cdot 1 + 4 \cdot 2 = 3 + 8 = 11$
  • 两者相等。

示例 2:双线性 (加法)

  • $\mathbf{v}+\mathbf{w} = (4,6)$
  • $\langle \mathbf{v}+\mathbf{w}, \mathbf{u} \rangle = \langle (4,6), (5,6) \rangle = 4 \cdot 5 + 6 \cdot 6 = 20 + 36 = 56$
  • $\langle \mathbf{v}, \mathbf{u} \rangle + \langle \mathbf{w}, \mathbf{u} \rangle = (1 \cdot 5 + 2 \cdot 6) + (3 \cdot 5 + 4 \cdot 6) = (5+12) + (15+24) = 17 + 39 = 56$
  • 两者相等。

示例 3:双线性 (标量乘法)

  • $t\mathbf{v} = (2,4)$
  • $\langle t\mathbf{v}, \mathbf{w} \rangle = \langle (2,4), (3,4) \rangle = 2 \cdot 3 + 4 \cdot 4 = 6 + 16 = 22$
  • $t\langle \mathbf{v}, \mathbf{w} \rangle = 2 \cdot (1 \cdot 3 + 2 \cdot 4) = 2 \cdot 11 = 22$
  • 两者相等。

示例 4:正定性

  • $\langle \mathbf{v}, \mathbf{v} \rangle = 1 \cdot 1 + 2 \cdot 2 = 1+4 = 5$。结果 $5 \ge 0$
  • 如果 $\langle \mathbf{v}, \mathbf{v} \rangle = 0$,那么 $v_1^2 + v_2^2 = 0$,这要求 $v_1=0$$v_2=0$,所以 $\mathbf{v}=(0,0)=\mathbf{0}$
⚠️ [易错点]
  1. 在复向量空间中:当向量复数向量,标量复数时,内积的定义和性质会稍有改变。特别是对称性会变为“共轭对称性”($\langle \mathbf{v}, \mathbf{w} \rangle = \overline{\langle \mathbf{w}, \mathbf{v} \rangle}$),双线性会变为“半双线性”(对第一个变量线性,对第二个变量是共轭线性)。这是为了保证正定性 ($\langle \mathbf{v}, \mathbf{v} \rangle$ 是实数且非负) 仍然成立。当前文本只讨论实向量空间 $\mathbb{R}^n$,所以不需要考虑这些复杂性。
  2. 抽象内积:必须认识到这四条性质是用来 定义 抽象内积的。例如,在某个函数空间上,我们可以定义两个函数 $f(x), g(x)$内积$\langle f, g \rangle = \int_a^b f(x)g(x) dx$。可以验证,这个积分运算也满足上述的对称、双线性、正定性质,因此它是一个合法的内积
📝 [总结]

本段列举并解释了标准内积$\mathbb{R}^n$ 中满足的四个基本性质:对称性(交换律)、双线性(分配律和与标量乘法的关系)、以及正定性(与自身内积非负,且只在零向量处为零)。这四条公理是内积的核心,是所有基于内积的理论(如长度、角度、投影)的逻辑基础,并且它们也构成了在抽象向量空间上定义内积的标准。

🎯 [存在目的]

本段的目的是提炼出内积运算的本质属性。

  1. 奠定理论基础:所有后续关于长度正交基Gram-Schmidt过程等的证明,都将反复用到这四个性质。
  2. 为抽象化铺路:这四条公理为从具体的“点积”推广到抽象的“内积”提供了蓝图。任何满足这四条公理的运算,无论其具体形式如何,都可以享有由内积导出的一整套丰富的几何理论。这使得我们可以在函数空间、矩阵空间等更广泛的领域里讨论“长度”、“角度”和“垂直”。
  3. 展示代数结构之美:它揭示了内积作为一个二元运算,与向量空间本身的结构(加法和标量乘法)是如何完美地协调工作的。
🧠 [直觉心智模型]
  1. 对称性:测量A和B的“对齐度”,和测量B和A的“对齐度”,应该是一回事。
  2. 双线性
  3. 加法:测量“A和B的组合”与C的对齐度,应该等于“A与C的对齐度”加上“B与C的对齐度”。
  4. 标量乘法:把A的长度变为两倍后,它与B的对齐度也应该变为两倍。
  5. 正定性
  6. 一个物体与自身的“对齐度”(长度的平方)不可能是负的。
  7. 只有“不存在”的物体(零向量),它与自身的“对齐度”才是零。任何真实存在的物体,都有大于零的“体积”或“存在感”。
💭 [直观想象]
  1. 评价两个人(向量)的“合作默契度”(内积)
  2. 对称性:A评价和B的默契度,跟B评价和A的默契度,应该是一样的。
  3. 双线性
  4. 加法:评价“A和B组成的团队”与C的默契度,等于A与C的默契度,加上B与C的默契度。
  5. 标量乘法:如果A的“能力值”翻倍,那么他与B的默-契度也应该翻倍。
  6. 正定性
  7. 一个人与自己的“默契度”(可以理解为自信、自我认同)不可能是负数。
  8. 只有“不存在的人”(零向量)与自己的默契度是零。任何一个“存在”的人,都有一定的自我认同。
32.2.3 范数(长度)与三角不等式

📜 [原文11]

定义 4.1.8. $\mathbf{v}$长度范数定义为

$$ \|\mathbf{v}\|=(\langle\mathbf{v}, \mathbf{v}\rangle)^{1 / 2} $$

命题 4.1.9. 对于所有 $t \in \mathbb{R}, \mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$

$$ \begin{aligned} \|t \mathbf{v}\| & =|t|\|\mathbf{v}\| \\ \|\mathbf{v}+\mathbf{w}\| & \leq\|\mathbf{v}\|+\|\mathbf{w}\| \text{ (**三角不等式**)。} \end{aligned} $$

📖 [逐步解释]

这部分内容利用刚刚定义的内积,来正式定义向量长度(也称为范数),并陈述了范数满足的两条重要性质。

  1. 定义 4.1.8:长度/范数的定义
    • 一个向量 $\mathbf{v}$长度,被定义为它与自身的内积平方根
    • 符号 $\|\mathbf{v}\|$ 读作“v的范数 (norm)”,在几何语境下也直接读作“v的长度 (length)”。双竖线是范数的标准记号。
    • 这个定义是合理的,因为它推广了我们熟悉的几何概念。在 $\mathbb{R}^2$ 中,向量 $\mathbf{v}=(x,y)$长度根据勾股定理是 $\sqrt{x^2+y^2}$。而它的内积$\langle \mathbf{v}, \mathbf{v} \rangle = x^2+y^2$。因此,定义 $\|\mathbf{v}\| = \sqrt{\langle \mathbf{v}, \mathbf{v} \rangle}$ 与勾股定理完全吻合。
    • 上一节内积正定性保证了这个定义的良好性:
    • 因为 $\langle \mathbf{v}, \mathbf{v} \rangle \ge 0$,所以开平方根总是有意义的(在实数范围内)。
    • 因为 $\langle \mathbf{v}, \mathbf{v} \rangle = 0 \iff \mathbf{v}=\mathbf{0}$,所以长度为0当且仅当向量零向量
  2. 命题 4.1.9:范数的性质
    • 这里给出了范数(作为一种“长度”度量)必须满足的基本性质。
    • 第一条性质:与标量乘法的关系
    • 公式: $\|t\mathbf{v}\| = |t|\|\mathbf{v}\|$
    • 解释: 将一个向量缩放 $t$ 倍,其新的长度等于原长度乘以 $|t|$$t$ 的绝对值)。
    • 证明:
    • 第二条性质:三角不等式 (Triangle Inequality)
    • 公式: $\|\mathbf{v}+\mathbf{w}\| \leq \|\mathbf{v}\| + \|\mathbf{w}\|$
    • 解释: “两边之和大于第三边”。在由向量 $\mathbf{v}$, $\mathbf{w}$$\mathbf{v}+\mathbf{w}$ 构成的三角形中(根据向量加法的首尾相连法则),代表“直达”路径的边 $\mathbf{v}+\mathbf{w}$长度,不会超过“绕路”走的两条边 $\mathbf{v}$$\mathbf{w}$长度之和。
    • 证明: 这个证明稍微复杂,通常依赖于另一个重要的不等式——柯西-施瓦茨不等式 ($\langle \mathbf{v}, \mathbf{w} \rangle^2 \le \|\mathbf{v}\|^2 \|\mathbf{w}\|^2$)。(原文未给出证明,这里简要概述)
∑ [公式拆解]

公式1:

$$ \|\mathbf{v}\|=(\langle\mathbf{v}, \mathbf{v}\rangle)^{1 / 2} $$

  • $\|\mathbf{v}\|$: 向量 $\mathbf{v}$范数长度
  • $\langle \mathbf{v}, \mathbf{v} \rangle$: 向量 $\mathbf{v}$ 与自身的内积
  • $(\ldots)^{1/2}$: 表示对括号内的值开平方根。

这个公式是一个定义。它将“范数”这个概念建立在“内积”概念之上。

公式2与3:

$$ \begin{aligned} \|t \mathbf{v}\| & =|t|\|\mathbf{v}\| \\ \|\mathbf{v}+\mathbf{w}\| & \leq\|\mathbf{v}\|+\|\mathbf{w}\| \end{aligned} $$

  • $|t|$: 标量 $t$ 的绝对值。
  • $\le$: 小于或等于。

这两条是范数必须满足的核心性质,它们与正定性$\|\mathbf{v}\| \ge 0$$\|\mathbf{v}\|=0 \iff \mathbf{v}=\mathbf{0}$,这由内积的正定性直接保证)共同构成了抽象范数的公理化定义。

💡 [数值示例]

使用 $\mathbf{v}=(3,4)$, $\mathbf{w}=(-12, 5)$, $t=-2$

示例 1:计算范数

  • $\|\mathbf{v}\| = \sqrt{\langle(3,4), (3,4)\rangle} = \sqrt{3^2+4^2} = \sqrt{9+16} = \sqrt{25} = 5$。这是一个毕达哥拉斯三元数,长度为整数。
  • $\|\mathbf{w}\| = \sqrt{(-12)^2 + 5^2} = \sqrt{144+25} = \sqrt{169} = 13$。这是另一个毕达哥拉斯三元数。

示例 2:验证与标量乘法的关系

  • $t\mathbf{v} = -2 \cdot (3,4) = (-6, -8)$
  • $\|t\mathbf{v}\| = \sqrt{(-6)^2 + (-8)^2} = \sqrt{36+64} = \sqrt{100} = 10$
  • $|t|\|\mathbf{v}\| = |-2| \cdot 5 = 2 \cdot 5 = 10$
  • 两者相等。

示例 3:验证三角不等式

  • $\mathbf{v}+\mathbf{w} = (3-12, 4+5) = (-9, 9)$
  • $\|\mathbf{v}+\mathbf{w}\| = \sqrt{(-9)^2 + 9^2} = \sqrt{81+81} = \sqrt{162} = 9\sqrt{2}$
  • $9\sqrt{2} \approx 9 \times 1.414 = 12.726$
  • $\|\mathbf{v}\| + \|\mathbf{w}\| = 5 + 13 = 18$
  • 我们看到 $12.726 \le 18$三角不等式成立。
⚠️ [易错点]
  1. 范数不等于内积范数内积的平方根,单位和物理意义都不同。范数是长度,内积更接近“能量”或“投影”的概念。
  2. 绝对值符号:在 $\|t\mathbf{v}\| = |t|\|\mathbf{v}\|$ 中,绝对值 $|t|$ 是必不可少的。如果 $t$ 是负数,长度必须是正的。
  3. 三角不等式的等号何时成立$\|\mathbf{v}+\mathbf{w}\| = \|\mathbf{v}\| + \|\mathbf{w}\|$ 这个等号成立的条件是,当且仅当一个向量是另一个向量的非负标量倍,即 $\mathbf{v} = c\mathbf{w}$$\mathbf{w}=c\mathbf{v}$ 其中 $c \ge 0$。也就是说,两个向量指向完全相同的方向时。
📝 [总结]

本段从内积出发,定义了向量长度(或范数),即向量与自身内积的平方根。这个定义将代数的内积运算与几何的长度概念联系起来。然后,陈述了范数满足的两个基本性质:它如何与标量乘法相互作用(长度按比例缩放),以及三角不等式(两边之和大于第三边),后者是所有度量空间的基本属性。

🎯 [存在目的]

本段的目的是完成从内积到完整几何概念的过渡。

  1. 量化向量大小范数提供了衡量一个向量“大小”或“强度”的数值标准。
  2. 建立度量空间范数的定义,特别是三角不等式,是构建一个“度量空间”(Metric Space) 的关键。有了范数,我们就可以定义两个向量之间的“距离” $d(\mathbf{v}, \mathbf{w}) = \|\mathbf{v}-\mathbf{w}\|$。这使得我们可以讨论收敛、极限、连续性等分析学概念。
  3. 为单位向量铺路:有了长度,我们就可以将任何非零向量“单位化”,即通过除以它自身的长度,得到一个与原向量方向相同但长度为1的“单位向量”。单位向量在构建标准正交基等问题中至关重要。
🧠 [直觉心智模型]
  1. 范数就是一把尺子,用来测量一个向量(箭头)从起点到终点的距离。
  2. $\|t\mathbf{v}\| = |t|\|\mathbf{v}\|$:你把一个箭头拉长到原来的2倍,用尺子一量,它的读数也正好是原来的2倍。
  3. 三角不等式:从家(原点)到学校(点A),再从学校到图书馆(点B),你走过的总路程($\|\mathbf{v}\|+\|\mathbf{w}\|$),肯定不会比你直接从家到图书馆($\|\mathbf{v}+\mathbf{w}\|$)的路程更短。
💭 [直观想象]
  1. 范数:在地图上,一个向量是从城市A到城市B的直线位移。范数就是这条直线的公里数。
  2. $\|t\mathbf{v}\| = |t|\|\mathbf{v}\|$:如果把地图放大2倍($t=2$),图上这条线的视觉长度变为2倍,它代表的实际公里数也变为2倍。
  3. 三角不等式:从纽约到芝加哥的直线距离,加上从芝加哥到洛杉矶的直线距离,总和肯定大于或等于从纽约直接到洛杉矶的直线距离。
42.2.4 内积的非退化性

📜 [原文12]

一个有用的事实是以下内容,它表明唯一与 $\mathbb{R}^{n}$ 中每个向量正交向量是零向量

引理 4.1.10. 如果 $\mathbf{v} \in \mathbb{R}^{n}$ 满足对于所有 $\mathbf{w} \in \mathbb{R}^{n}$ 都有 $\langle\mathbf{v}, \mathbf{w}\rangle=0$,那么 $\mathbf{v}=\mathbf{0}$

证明. 如果对于所有 $\mathbf{w} \in \mathbb{R}^{n}$ 都有 $\langle\mathbf{v}, \mathbf{w}\rangle=0$,那么特别地取 $\mathbf{w}=\mathbf{v}$ 即可看出 $\langle\mathbf{v}, \mathbf{v}\rangle=0$,因此 $\mathbf{v}=\mathbf{0}$。(第二种证明是利用 $\left\langle\mathbf{v}, \mathbf{e}_{i}\right\rangle=v_{i}$ 的事实,推断出对于每个 $i$ 都有 $v_{i}=0$。)

📖 [逐步解释]

这部分内容提出了一个虽然简单但非常关键的引理,称为内积非退化性 (non-degeneracy)

  1. 引理的内容
    • 它说:在 $\mathbb{R}^n$ 空间中,如果存在一个向量 $\mathbf{v}$,它“神通广大”,与空间中 所有向量(包括它自己)都正交内积为0),那么这个向量 $\mathbf{v}$ 不可能是别的,只能是零向量 $\mathbf{0}$
    • 换句话说,不存在一个非零的“幽灵向量”,它躲在某个维度里,与我们能感知到的所有向量都垂直。
  2. 第一个证明
    • 这是一个非常巧妙和常见的数学证明技巧,叫做“代入特殊值”。
    • 前提: 对于 所有$\mathbf{w} \in \mathbb{R}^n$,都有 $\langle \mathbf{v}, \mathbf{w} \rangle = 0$
    • 技巧: 既然对 所有$\mathbf{w}$ 都成立,那么必然对某个 特殊$\mathbf{w}$ 也成立。我们该选哪个特殊 $\mathbf{w}$ 呢?最能揭示 $\mathbf{v}$ 自身信息的向量就是 $\mathbf{v}$ 本身!
    • 推导: 我们选择让 $\mathbf{w} = \mathbf{v}$。根据前提,我们必须有 $\langle \mathbf{v}, \mathbf{v} \rangle = 0$
    • 结论: 根据内积正定性(命题 4.1.7),$\langle \mathbf{v}, \mathbf{v} \rangle = 0$ 的充分必要条件是 $\mathbf{v} = \mathbf{0}$
    • 证明完毕。这个证明非常优雅,一步到位。
  3. 第二个证明
    • 这是一个更“构造性”的证明方法,它直接展示了为什么 $\mathbf{v}$ 的所有分量都必须是0。
    • 前提: 同样是对于 所有$\mathbf{w} \in \mathbb{R}^n$,都有 $\langle \mathbf{v}, \mathbf{w} \rangle = 0$
    • 技巧: 这次我们代入另一组特殊的向量——标准基向量 $\mathbf{e}_1, \mathbf{e}_2, \ldots, \mathbf{e}_n$
    • 推导:
    • $\mathbf{w} = \mathbf{e}_1$。根据前提,$\langle \mathbf{v}, \mathbf{e}_1 \rangle = 0$。而我们之前知道 $\langle \mathbf{v}, \mathbf{e}_i \rangle = v_i$,所以这意味着 $v_1=0$
    • $\mathbf{w} = \mathbf{e}_2$。根据前提,$\langle \mathbf{v}, \mathbf{e}_2 \rangle = 0$,所以 $v_2=0$
    • ...
    • $\mathbf{w} = \mathbf{e}_n$。根据前提,$\langle \mathbf{v}, \mathbf{e}_n \rangle = 0$,所以 $v_n=0$
    • 结论:既然 $\mathbf{v}$ 的所有分量 $v_1, v_2, \ldots, v_n$ 都等于0,那么 $\mathbf{v}$ 只能是零向量 $\mathbf{0}$
💡 [数值示例]

假设在 $\mathbb{R}^3$ 中有一个向量 $\mathbf{v}=(v_1, v_2, v_3)$,它与空间中任何向量 $\mathbf{w}=(w_1, w_2, w_3)$正交

$\langle \mathbf{v}, \mathbf{w} \rangle = v_1w_1 + v_2w_2 + v_3w_3 = 0$ 对任意 $w_1, w_2, w_3$ 都成立。

  • 第二个证明的思路:
  • $\mathbf{w} = (1,0,0)$。则 $v_1 \cdot 1 + v_2 \cdot 0 + v_3 \cdot 0 = 0 \Rightarrow v_1=0$
  • $\mathbf{w} = (0,1,0)$。则 $v_1 \cdot 0 + v_2 \cdot 1 + v_3 \cdot 0 = 0 \Rightarrow v_2=0$
  • $\mathbf{w} = (0,0,1)$。则 $v_1 \cdot 0 + v_2 \cdot 0 + v_3 \cdot 1 = 0 \Rightarrow v_3=0$
  • 因此,$\mathbf{v}=(0,0,0) = \mathbf{0}$
  • 第一个证明的思路:
  • 因为对 任意 $\mathbf{w}$ 都成立,所以对 $\mathbf{w}=\mathbf{v}=(v_1,v_2,v_3)$ 也成立。
  • $\langle \mathbf{v}, \mathbf{v} \rangle = v_1^2 + v_2^2 + v_3^2 = 0$
  • 由于平方项非负,这个等式成立的唯一可能是 $v_1=0, v_2=0, v_3=0$
  • 因此,$\mathbf{v}=(0,0,0) = \mathbf{0}$
⚠️ [易错点]
  1. 条件“对于所有w”是关键:这个引理的威力在于它的前提“对于所有 $\mathbf{w}$”。如果一个向量 $\mathbf{v}$ 只是与 某个某些 向量 $\mathbf{w}$ 正交,那是完全可能的,并不能推出 $\mathbf{v}=\mathbf{0}$。例如,在 $\mathbb{R}^3$ 中,$(1,1,0)$$(1,-1,0)$ 正交,但它们都不是零向量
  2. 退化内积:在一些更广义的数学结构中(例如闵可夫斯基时空),可能会定义“退化”的内积,即存在非零向量与所有向量内积都为零。但我们在此讨论的欧几里得内积非退化的。
📝 [总结]

本段的引理阐述了标准内积非退化性:唯一能与空间中所有向量都垂直的向量就是零向量。作者给出了两种证明方式:一种是巧妙地代入自身,利用正定性;另一种是更具构造性地代入标准基,证明所有分量都为零。这个性质是内积良好定义和功能强大的一个基本保证。

🎯 [存在目的]

这个引理虽然简单,但在理论推导中非常有用。

  1. 唯一性证明:它经常被用在唯一性证明中。例如,如果要证明某个问题的解 $\mathbf{x}$ 是唯一的,一个常见的策略是假设有两个解 $\mathbf{x}_1, \mathbf{x}_2$,然后证明它们的差 $\mathbf{v} = \mathbf{x}_1 - \mathbf{x}_2$ 与空间中所有向量正交。然后利用此引理得出 $\mathbf{v}=\mathbf{0}$,即 $\mathbf{x}_1 = \mathbf{x}_2$
  2. 对偶空间理论:在更高等的线性代数中,这个性质保证了向量空间 $V$ 和它的对偶空间 $V^*$ 之间存在一个自然的同构关系。它确保了内积能够作为连接这两个空间的桥梁。
  3. 保证几何直观的有效性:它确保了我们关于“垂直”的直观理解不会出问题。不存在一个神秘的、看不见摸不着的“方向”,它垂直于我们能想象到的所有方向。
🧠 [直觉心智模型]
  1. 万能垂直者:想象在一个房间(三维空间)里,有没有一个非零长度的棍子(非零向量),它能同时与房间里你能画出的 所有 方向的线都垂直?
  2. 答案是没有。如果你有一根棍子,它指向“上”,那么它就无法与“上”这个方向垂直。它最多只能与一个平面上的所有线垂直。
  3. 唯一能做到与“所有”方向都垂直的,只有一个没有方向、没有长度的“点”(零向量)。
💭 [直观想象]
  1. 绝对的“局外人”:在一个社交网络中,每个人是一个向量,两人之间的“关系好坏度”是内积正交意味着“完全没关系、不相干”。
  2. 这个引理说:在这个网络里,唯一一个与 所有人(包括他自己)都“完全没关系”的个体,只能是那个根本不存在于这个网络中的“幽灵”(零向量)。任何一个真实的、存在的个体,至少和自己有关系($\langle \mathbf{v}, \mathbf{v} \rangle > 0$),不可能与所有人(包括自己)都毫无瓜葛。
52.2.5 标准正交基

📜 [原文13]

定义 4.1.11. 标准正交基 $\mathbf{u}_{1}, \ldots, \mathbf{u}_{n}$ 是一个,使得

$$ \left\langle\mathbf{u}_{i}, \mathbf{u}_{j}\right\rangle= \begin{cases}0, & \text { 如果 } i \neq j \\ 1, & \text { 如果 } i=j\end{cases} $$

例如,标准基 $\mathbf{e}_{1}, \ldots, \mathbf{e}_{n}$ 是一个标准正交基。更一般地,$\mathbb{R}^{n}$向量序列 $\mathbf{u}_{1}, \ldots, \mathbf{u}_{k}$标准正交的,如果对于所有 $i$ 都有 $\|\mathbf{u}_{i}\|=1$,并且对于所有 $i \neq j$ 都有 $\langle\mathbf{u}_{i}, \mathbf{u}_{j}\rangle=0$。很容易看出标准正交序列线性无关的:由于 $\left\langle\sum_{i=1}^{k} t_{i} \mathbf{u}_{i}, \mathbf{u}_{j}\right\rangle=t_{j}$,如果 $\sum_{i=1}^{k} t_{i} \mathbf{u}_{i}=\mathbf{0}$,那么对于所有 $j$ 都有 $t_{j}=0$。特别地,$\mathbb{R}^{n}$标准正交序列的最大可能长度是 $n$

📖 [逐步解释]

这部分内容定义了内积空间中一类非常重要和好用的——标准正交基

  1. 定义标准正交基
    • 一个标准正交基首先必须是一个,即它由 $n$线性无关向量构成,能张成整个 $\mathbb{R}^n$ 空间。
    • 在此基础上,它还必须满足额外的“标准正交”条件,这个条件可以用一个简洁的公式表达:$\langle \mathbf{u}_i, \mathbf{u}_j \rangle = \delta_{ij}$ (Kronecker delta)。
    • 这个条件分解开来就是两条:
  2. 正交性 (Orthogonality):当 $i \neq j$ 时,$\langle \mathbf{u}_i, \mathbf{u}_j \rangle = 0$。这意味着中任意两个 不同向量都是相互垂直的。
  3. 标准化 (Normalization):当 $i=j$ 时,$\langle \mathbf{u}_i, \mathbf{u}_i \rangle = 1$。根据范数的定义,这等价于 $\|\mathbf{u}_i\|^2 = 1$,即 $\|\mathbf{u}_i\| = 1$。这意味着中的 每一个 向量都是单位向量长度为1)。
    • 简而言之,标准正交基就是一套由相互垂直的单位向量组成的
  4. 标准基的例子
    • 我们最熟悉的标准基 $\{\mathbf{e}_1, \ldots, \mathbf{e}_n\}$ 就是一个标准正交基
    • 验证:
    • 正交性:如果 $i \neq j$$\mathbf{e}_i$ 在第 $i$ 位是1,其他位是0;$\mathbf{e}_j$ 在第 $j$ 位是1,其他位是0。$\langle \mathbf{e}_i, \mathbf{e}_j \rangle = \sum_k (\mathbf{e}_i)_k (\mathbf{e}_j)_k = 0 \cdot 1 + 1 \cdot 0 + \ldots = 0$
    • 标准化$\langle \mathbf{e}_i, \mathbf{e}_i \rangle = 1^2 = 1$
    • 所以标准基完美符合标准正交基的定义。它对应于我们最熟悉的直角坐标系的坐标轴方向。
  5. 标准正交序列的性质
    • 作者在这里放宽了条件,讨论一个不一定是的“标准正交序列$\{\mathbf{u}_1, \ldots, \mathbf{u}_k\}$(即只满足相互垂直且长度为1,但个数 $k$ 可能小于 $n$)。
    • 一个关键结论:一个标准正交序列必然是线性无关的。
    • 证明:
    • 假设我们有一个线性组合等于零向量$\sum_{i=1}^k t_i \mathbf{u}_i = \mathbf{0}$。我们的目标是证明所有系数 $t_j$ 都必须是0。
    • 技巧:将这个等式两边同时与其中一个向量 $\mathbf{u}_j$内积
    • $\langle \sum_{i=1}^k t_i \mathbf{u}_i, \mathbf{u}_j \rangle = \langle \mathbf{0}, \mathbf{u}_j \rangle = 0$
    • 利用内积线性,左边可以展开:$\sum_{i=1}^k t_i \langle \mathbf{u}_i, \mathbf{u}_j \rangle = 0$
    • 现在利用标准正交的性质:在这个和式中,当 $i \neq j$ 时,$\langle \mathbf{u}_i, \mathbf{u}_j \rangle = 0$,这些项都消失了。唯一剩下的项是当 $i=j$ 时,此时 $\langle \mathbf{u}_j, \mathbf{u}_j \rangle = 1$
    • 所以整个和式简化为:$t_j \cdot 1 = 0$,即 $t_j=0$
    • 因为 $j$ 可以是 $1, \ldots, k$ 中的任意一个,所以我们证明了所有的系数 $t_1, \ldots, t_k$ 都必须是0。
    • 根据线性无关的定义,这个标准正交序列线性无关的。
    • 推论: 因为标准正交序列线性无关的,根据命题 4.1.3(i),在 $\mathbb{R}^n$ 中,任何线性无关向量个数都不能超过 $n$。因此,标准正交序列的长度 $k$ 也不能超过 $n$
∑ [公式拆解]

公式:

$$ \left\langle\mathbf{u}_{i}, \mathbf{u}_{j}\right\rangle= \begin{cases}0, & \text { 如果 } i \neq j \\ 1, & \text { 如果 } i=j\end{cases} $$

  • 这是一个分段函数,用来简洁地表达标准正交的条件。
  • 它等价于数学上常用的 Kronecker delta 符号:$\langle \mathbf{u}_i, \mathbf{u}_j \rangle = \delta_{ij}$
  • $\delta_{ij}$ 的定义就是:当 $i=j$ 时,其值为1;当 $i \neq j$ 时,其值为0。
  • 这个公式优雅地将“相互垂直”和“单位长度”两个条件合并在了一起。
💡 [数值示例]

$\mathbb{R}^3$ 中。

  • 示例 1 (是标准正交基)$\{\mathbf{e}_1, \mathbf{e}_2, \mathbf{e}_3\} = \{(1,0,0), (0,1,0), (0,0,1)\}$。已验证。
  • 示例 2 (是标准正交基)$\mathbf{u}_1 = (\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}}, 0)$, $\mathbf{u}_2 = (\frac{1}{\sqrt{2}}, -\frac{1}{\sqrt{2}}, 0)$, $\mathbf{u}_3 = (0,0,1)$
  • 验证
  • 长度:

$\|\mathbf{u}_1\|^2 = (\frac{1}{\sqrt{2}})^2 + (\frac{1}{\sqrt{2}})^2 + 0^2 = \frac{1}{2}+\frac{1}{2}=1$

$\|\mathbf{u}_2\|^2 = (\frac{1}{\sqrt{2}})^2 + (-\frac{1}{\sqrt{2}})^2 + 0^2 = \frac{1}{2}+\frac{1}{2}=1$

$\|\mathbf{u}_3\|^2 = 0^2+0^2+1^2=1$

所有向量长度都是1。

  • 正交性:

$\langle \mathbf{u}_1, \mathbf{u}_2 \rangle = \frac{1}{\sqrt{2}}\frac{1}{\sqrt{2}} + \frac{1}{\sqrt{2}}(-\frac{1}{\sqrt{2}}) + 0 \cdot 0 = \frac{1}{2} - \frac{1}{2} = 0$

$\langle \mathbf{u}_1, \mathbf{u}_3 \rangle = \frac{1}{\sqrt{2}} \cdot 0 + \frac{1}{\sqrt{2}} \cdot 0 + 0 \cdot 1 = 0$

$\langle \mathbf{u}_2, \mathbf{u}_3 \rangle = \frac{1}{\sqrt{2}} \cdot 0 - \frac{1}{\sqrt{2}} \cdot 0 + 0 \cdot 1 = 0$

所有不同向量都相互正交

  • 因为它是由3个标准正交(因此线性无关)的向量组成的,根据命题 4.1.3(iv),它自动成为 $\mathbb{R}^3$ 的一个。所以这是一个标准正交基。它相当于将 xy 直角坐标系旋转了45度。
  • 示例 3 (仅为标准正交序列,不是基)$\{\mathbf{u}_1, \mathbf{u}_3\}$ in $\mathbb{R}^3$
  • 这是一个由两个相互垂直的单位向量组成的序列。它是标准正交的,因此是线性无关的。
  • 但它只包含2个向量,不足以张成整个 $\mathbb{R}^3$ 空间,所以它不是一个
⚠️ [易错点]
  1. 正交基 vs 标准正交基:一个“正交基”是指由一组相互垂直的 非零 向量构成的。它不要求这些向量长度为1。“标准正交基”的要求更高,既要正交,又要长度为1(标准化)。任何一个正交基都可以通过将其中每个向量除以它自身的长度来转化为一个标准正交基
  2. 标准基 vs 标准正交基标准基 $\{\mathbf{e}_i\}$标准正交基的一个 特例。不要把两者混为一谈。存在无穷多个不同的标准正交基
  3. 证明线性无关的技巧:利用内积来证明标准正交集是线性无关的,这个技巧非常重要,需要熟练掌握。它展示了内积如何简化线性代数的证明。
📝 [总结]

本段定义了标准正交基,这是一类“最好用”的,它由一族相互垂直的单位向量构成。我们最熟悉的标准基(直角坐标系的坐标轴)就是它的一个典型例子。一个重要的理论结论是,任何一组标准正交向量都必然是线性无关的,这也直接限定了在一个 $n$ 维空间中,我们最多只能找到 $n$ 个相互垂直的单位向量

🎯 [存在目的]

标准正交基之所以如此重要,是因为它极大地简化了向量内积的计算。

  1. 简化坐标计算:如果 $\{\mathbf{u}_1, \ldots, \mathbf{u}_n\}$ 是一个标准正交基,那么空间中任意一个向量 $\mathbf{v}$ 都可以表示为 $\mathbf{v} = \sum_{i=1}^n c_i \mathbf{u}_i$。在一个普通的中,计算这些坐标系数 $c_i$ 可能需要解一个线性方程组。但在标准正交基中,系数可以直接通过内积得到:$c_i = \langle \mathbf{v}, \mathbf{u}_i \rangle$。(这个结论的证明就用到了本文中证明线性无关的技巧)。这被称为傅里叶展开
  2. 简化内积计算:如果两个向量标准正交基表示为 $\mathbf{v} = \sum a_i \mathbf{u}_i$$\mathbf{w} = \sum b_i \mathbf{u}_i$,那么它们的内积计算也变得像标准点积一样简单:$\langle \mathbf{v}, \mathbf{w} \rangle = \sum a_i b_i$
  3. 数值稳定性:在计算机数值计算中,使用标准正交基可以提高算法的稳定性和精度,避免舍入误差的累积。
  4. 理论核心:许多重要的线性代数定理和分解(如QR分解谱定理奇异值分解(SVD))都与标准正交基正交矩阵密切相关。
🧠 [直觉心智模型]
  1. 完美的坐标系标准正交基就是我们心目中最理想的“直角坐标系”。它的坐标轴相互垂直,而且每个轴上的单位长度都是1。
  2. 测量投影:在这样的坐标系里,要知道一个物体在 x 轴上的坐标,你只需要拿一把尺子,直接从物体向 x 轴做垂线,量一下投影的长度就行了。这个“测量投影”的操作,在数学上就是做内积 $\langle \mathbf{v}, \mathbf{e}_1 \rangle$。如果坐标轴不是垂直的(斜交坐标系),找坐标就会麻烦得多。
💭 [直观想象]
  1. 搭建一个绝对标准的脚手架
  2. 你要在一个空间里进行测量和建造。
  3. :一套脚手架的骨架。
  4. 标准正交基:一套质量最好的脚手架。它的所有立柱都与地面绝对垂直,所有横杆都与立柱绝对垂直,并且横杆之间也相互垂直。此外,所有杆件上的刻度都是标准米。
  5. 优点:用这样的脚手架,定位空间中任何一点的坐标(比如离东墙多远,离南墙多远,离地面多高)都变得异常简单和精确。如果脚手架是歪的(非正交基),或者刻度不准(非单位向量),定位就会非常困难和不直观。
62.2.6 R²中的标准正交基与Gram-Schmidt思想

📜 [原文14]

很容易明确地描述 $\mathbb{R}^{2}$ 中所有的标准正交基:首先,如果 $\mathbf{u}_{1}$单位向量,即 $\|\mathbf{u}_{1}\|=1$,那么 $\mathbf{u}_{1}=(\cos \theta, \sin \theta)$,其中 $\theta$ 是一个实数,且在加上 $2 \pi$ 的整数倍后是唯一的。为了找到 $\mathbf{u}_{2}$,有一个标准方法,给定一个非零向量 $\mathbf{v}=(a, b) \in \mathbb{R}^{2}$,可以找到一个与 $\mathbf{v}$ 正交$\|\mathbf{v}^{\prime}\|=\|\mathbf{v}\|$向量 $\mathbf{v}^{\prime}$。实际上,对于 $\mathbf{v}^{\prime}$ 只有两种可能性:它要么是 $(-b, a)$,要么是 $-(-b, a)=(b,-a)$。第一种可能性对应于将 $\mathbf{v}$ 逆时针旋转 $\pi/2$ 角,第二种对应于将 $\mathbf{v}$ 顺时针旋转 $\pi/2$ 角。(推论:如果 $\mathbb{R}^{2}$ 中两条非垂直线 $L_{1}$$L_{2}$ 垂直,它们的斜率 $m_{1}$$m_{2}$ 满足:$m_{1} m_{2}=-1$,即互为“倒数负”)。总结如下:

命题 4.1.12. $\mathbb{R}^{2}$ 中的每个标准正交基要么是以下形式:

$$ \mathbf{u}_{1}=(\cos \theta, \sin \theta), \quad \mathbf{u}_{2}=(-\sin \theta, \cos \theta) $$

要么是以下形式:

$$ \mathbf{u}_{1}=(\cos \theta, \sin \theta), \quad \mathbf{u}_{2}=(\sin \theta,-\cos \theta) $$

其中 $\theta$ 是一个实数,作为 $\mathbb{R} / 2 \pi \mathbb{Z}$ 的元素是唯一的。

更一般地,存在一个算法(Gram-Schmidt)可以实现以下目的:给定一个线性无关向量序列 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$,它产生一个标准正交向量序列 $\mathbf{u}_{1}, \ldots, \mathbf{u}_{k}$,使得对于所有 $1 \leq i \leq k$$i$

$$ \operatorname{span}\left\{\mathbf{u}_{1}, \ldots, \mathbf{u}_{i}\right\}=\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{i}\right\} $$

$\mathbf{u}_{i}$ 的构造很简单,但不幸的是,在大多数例子中执行起来涉及大量繁琐的平方根

📖 [逐步解释]

这部分内容分为两块:首先详细分析了二维平面 $\mathbb{R}^2$ 中所有标准正交基的形态,然后引出了一个更具普适性的算法——Gram-Schmidt(格拉姆-施密特)正交化过程。

  1. 分析 $\mathbb{R}^2$ 中的标准正交基
    • 一个标准正交基由两个向量 $\mathbf{u}_1, \mathbf{u}_2$ 构成。
    • 第一步:确定第一个向量 $\mathbf{u}_1$
    • $\mathbf{u}_1$ 必须是一个单位向量 ($\|\mathbf{u}_1\|=1$)。
    • $\mathbb{R}^2$ 中,任何单位向量都可以写成 $(\cos\theta, \sin\theta)$ 的形式,其中 $\theta$ 是该向量与 x 轴正方向的夹角。这个角度在模 $2\pi$ 的意义下是唯一的。
    • 第二步:寻找第二个向量 $\mathbf{u}_2$
    • $\mathbf{u}_2$ 必须与 $\mathbf{u}_1$ 正交,并且自身也是单位向量
    • 作者先给出了一个通用技巧:对于任意非零向量 $\mathbf{v}=(a,b)$,如何找到一个与它正交且等长的向量 $\mathbf{v}'$
    • 我们可以验证 $\mathbf{v}' = (-b,a)$ 满足条件:$\langle \mathbf{v}, \mathbf{v}' \rangle = \langle (a,b), (-b,a) \rangle = a(-b) + b(a) = -ab+ab = 0$。它们是正交的。
    • 它们的长度:$\|\mathbf{v}\|^2 = a^2+b^2$, $\|\mathbf{v}'\|^2 = (-b)^2+a^2 = b^2+a^2$。长度相等。
    • 另一个选择是 $-(-b,a) = (b,-a)$,同样也满足正交和等长。
    • 几何上,从 $(a,b)$$(-b,a)$ 是逆时针旋转 $90^\circ$ ($\pi/2$);到 $(b,-a)$ 是顺时针旋转 $90^\circ$
    • 应用到 $\mathbf{u}_1$
    • 我们已经有 $\mathbf{u}_1 = (\cos\theta, \sin\theta)$。这里 $a=\cos\theta, b=\sin\theta$
    • 根据上面的技巧,与之正交的单位向量 $\mathbf{u}_2$ 就有两种可能:
  2. $(-b, a) = (-\sin\theta, \cos\theta)$
  3. $(b, -a) = (\sin\theta, -\cos\theta)$
    • 斜率推论:作者插入了一个有趣的推论。如果一条线的方向向量$(1, m_1)$,另一条线的方向向量$(1, m_2)$。如果它们垂直,则它们的内积为0:$1 \cdot 1 + m_1 m_2 = 0 \implies m_1m_2 = -1$。这为“垂直直线的斜率乘积为-1”提供了向量方法的证明。
  4. 命题 4.1.12:$\mathbb{R}^2$ 标准正交基的完整描述
    • 这个命题是对上述分析的总结。
    • $\mathbb{R}^2$ 中的任何一个标准正交基,都必然是以下两种形态之一:
  5. 右手系 (Right-handed)$\{\mathbf{u}_1, \mathbf{u}_2\} = \{(\cos\theta, \sin\theta), (-\sin\theta, \cos\theta)\}$。这对应于一个标准的直角坐标系,绕原点旋转了 $\theta$ 角。从 $\mathbf{u}_1$$\mathbf{u}_2$ 是逆时针旋转 $90^\circ$。这种定向 (orientation) 是正的。
  6. 左手系 (Left-handed)$\{\mathbf{u}_1, \mathbf{u}_2\} = \{(\cos\theta, \sin\theta), (\sin\theta, -\cos\theta)\}$。这对应于一个经过“镜面反射”的坐标系。从 $\mathbf{u}_1$$\mathbf{u}_2$ 是顺时针旋转 $90^\circ$。这种定向是负的。(这与后面行列式为+1或-1的正交矩阵相对应)。
  7. 引出 Gram-Schmidt 过程
    • $\mathbb{R}^2$ 中找标准正交基很简单,但在更高维空间呢?
    • 作者在这里引出了 Gram-Schmidt 正交化过程,这是一个通用的、构造性的算法。
    • 输入:一组线性无关向量 $\{\mathbf{v}_1, \ldots, \mathbf{v}_k\}$
    • 输出:一组标准正交向量 $\{\mathbf{u}_1, \ldots, \mathbf{u}_k\}$
    • 关键性质:这个算法生成的标准正交向量组,在每一步都保持了与原向量组相同的“张成历史”。即,前 $i$ 个新向量张成的空间,与前 $i$ 个旧向量张成的空间是完全一样的。$\operatorname{span}\{\mathbf{u}_1, \ldots, \mathbf{u}_i\} = \operatorname{span}\{\mathbf{v}_1, \ldots, \mathbf{v}_i\}$
    • 算法思想(未展开)
  8. $\mathbf{v}_1$,将它单位化得到 $\mathbf{u}_1$
  9. $\mathbf{v}_2$,减去它在 $\mathbf{u}_1$ 方向上的投影,得到一个与 $\mathbf{u}_1$ 垂直的新向量。然后将这个新向量单位化,得到 $\mathbf{u}_2$
  10. $\mathbf{v}_3$,减去它在 $\mathbf{u}_1$$\mathbf{u}_2$ 张成的平面上的投影,得到一个与该平面垂直的新向量。再单位化得到 $\mathbf{u}_3$
  11. 以此类推。
    • 缺点:作者也指出了这个算法在手算时的缺点:由于反复进行投影(涉及内积)和单位化(涉及除以长度),计算中会频繁出现分数和平方根,过程可能相当繁琐。
∑ [公式拆解]

公式1:

$$ \mathbf{u}_{1}=(\cos \theta, \sin \theta), \quad \mathbf{u}_{2}=(-\sin \theta, \cos \theta) $$

  • 这是一个右手标准正交基$\mathbf{u}_1$ 是由 x 轴正向逆时针旋转 $\theta$ 角得到。$\mathbf{u}_2$ 是由 y 轴正向逆时针旋转同样的 $\theta$ 角得到,也等价于将 $\mathbf{u}_1$ 逆时针旋转 $90^\circ$

公式2:

$$ \mathbf{u}_{1}=(\cos \theta, \sin \theta), \quad \mathbf{u}_{2}=(\sin \theta,-\cos \theta) $$

  • 这是一个左手标准正交基$\mathbf{u}_2$ 相当于将右手系的 $\mathbf{u}_2$ 关于 x 轴做了一次镜像,或者说将 $\mathbf{u}_1$ 顺时针旋转 $90^\circ$

公式3:

$$ \operatorname{span}\left\{\mathbf{u}_{1}, \ldots, \mathbf{u}_{i}\right\}=\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{i}\right\} $$

  • 这是 Gram-Schmidt 过程保持的核心性质。它说明这个正交化过程是“逐步”的,不会在生成 $\mathbf{u}_i$ 时“跳跃”到后面的 $\mathbf{v}_{i+1}, \ldots$ 所包含的信息中去。$\mathbf{u}_i$ 只依赖于 $\mathbf{v}_1, \ldots, \mathbf{v}_i$
💡 [数值示例]

示例 1:$\mathbb{R}^2$ 中的标准正交基

  • 如果 $\theta = \pi/6$ ($30^\circ$)。
  • $\mathbf{u}_1 = (\cos(\pi/6), \sin(\pi/6)) = (\frac{\sqrt{3}}{2}, \frac{1}{2})$
  • 右手系: $\mathbf{u}_2 = (-\sin(\pi/6), \cos(\pi/6)) = (-\frac{1}{2}, \frac{\sqrt{3}}{2})$
  • 左手系: $\mathbf{u}_2' = (\sin(\pi/6), -\cos(\pi/6)) = (\frac{1}{2}, -\frac{\sqrt{3}}{2})$
  • $\{(\frac{\sqrt{3}}{2}, \frac{1}{2}), (-\frac{1}{2}, \frac{\sqrt{3}}{2})\}$$\{(\frac{\sqrt{3}}{2}, \frac{1}{2}), (\frac{1}{2}, -\frac{\sqrt{3}}{2})\}$ 都是 $\mathbb{R}^2$标准正交基

示例 2:Gram-Schmidt 思想演示

  • 给定 $\mathbb{R}^2$ 中的一个 $\{\mathbf{v}_1, \mathbf{v}_2\} = \{(3,0), (1,2)\}$。它们是线性无关的,但既不正交,长度也不是1。
  • 第一步:处理 $\mathbf{v}_1$
  • $\|\mathbf{v}_1\| = \sqrt{3^2+0^2} = 3$
  • 单位化:$\mathbf{u}_1 = \frac{\mathbf{v}_1}{\|\mathbf{v}_1\|} = \frac{(3,0)}{3} = (1,0)$
  • 此时,$\operatorname{span}\{\mathbf{u}_1\} = \operatorname{span}\{\mathbf{v}_1\}$ (都是x轴)。
  • 第二步:处理 $\mathbf{v}_2$
  • 先计算 $\mathbf{v}_2$$\mathbf{u}_1$ 方向上的投影向量$\text{proj}_{\mathbf{u}_1}\mathbf{v}_2 = \langle \mathbf{v}_2, \mathbf{u}_1 \rangle \mathbf{u}_1$
  • $\langle \mathbf{v}_2, \mathbf{u}_1 \rangle = \langle (1,2), (1,0) \rangle = 1 \cdot 1 + 2 \cdot 0 = 1$
  • 投影向量$1 \cdot \mathbf{u}_1 = (1,0)$
  • $\mathbf{v}_2$ 中减去这个投影,得到与 $\mathbf{u}_1$ 垂直的部分:$\mathbf{w}_2 = \mathbf{v}_2 - \text{proj}_{\mathbf{u}_1}\mathbf{v}_2 = (1,2) - (1,0) = (0,2)$
  • 现在我们有了一个与 $\mathbf{u}_1$ 正交向量 $\mathbf{w}_2=(0,2)$
  • 最后,将 $\mathbf{w}_2$ 单位化:$\|\mathbf{w}_2\| = \sqrt{0^2+2^2}=2$
  • $\mathbf{u}_2 = \frac{\mathbf{w}_2}{\|\mathbf{w}_2\|} = \frac{(0,2)}{2} = (0,1)$
  • 结果:我们从 $\{(3,0), (1,2)\}$ 出发,通过 Gram-Schmidt 过程得到了标准正交基 $\{(1,0), (0,1)\}$
  • 验证性质:
  • $\operatorname{span}\{\mathbf{u}_1\} = \operatorname{span}\{(1,0)\}$,与 $\operatorname{span}\{\mathbf{v}_1\} = \operatorname{span}\{(3,0)\}$ 相同(都是x轴)。
  • $\operatorname{span}\{\mathbf{u}_1, \mathbf{u}_2\} = \operatorname{span}\{(1,0),(0,1)\} = \mathbb{R}^2$
  • $\operatorname{span}\{\mathbf{v}_1, \mathbf{v}_2\} = \operatorname{span}\{(3,0),(1,2)\}$ 也是 $\mathbb{R}^2$
  • 性质成立。
⚠️ [易错点]
  1. 旋转方向:在二维平面中,从一个单位向量到与之垂直的单位向量,有两个方向可选,这导致了两种不同“手性”或“定向”的。这在行列式坐标变换中很重要。
  2. Gram-Schmidt 的输入:该算法的输入必须是一组线性无关向量。如果输入是线性相关的,那么在算法的某一步,你会试图对一个零向量进行单位化(因为一个向量减去它在前面向量张成的空间上的投影后变成了零向量),这将导致除以零的错误。
  3. 计算繁琐:再次强调,手算 Gram-Schmidt 过程,尤其是在三维以上空间,很容易因为平方根和分数的出现而导致计算错误。理解其几何思想比熟练手算更重要。
📝 [总结]

本段首先具体而完整地刻画了二维空间中所有标准正交基的形态,它们本质上都是标准直角坐标系绕原点旋转一定角度,再可能加上一次镜面反射的产物。接着,将这种构造思想推广到高维,引出了 Gram-Schmidt 正交化过程。这是一个强大的算法,能将任何一组普通的线性无关集(一个斜交的坐标系)转化为一个标准正交集(一个标准的直角坐标系),同时保持了空间的逐级张成结构。

🎯 [存在目的]

本段的目的是连接理论与构造,展示标准正交基不仅是存在的,而且是可以被系统地构造出来的。

  1. 提供具体图像:对 $\mathbb{R}^2$ 的详细分析,为标准正交基这个抽象概念提供了一个具体、可触摸的几何图像(旋转的坐标系)。
  2. 证明存在性与构造性Gram-Schmidt 过程的存在性是一个重要的理论保证。它证明了任何一个有限维内积空间都必定存在标准正交基。我们只需要从空间中任意找一个开始,然后应用该算法即可。
  3. 引出重要算法Gram-Schmidt 过程本身是一个在数值线性代数、信号处理、机器学习等领域有广泛应用的算法。例如,在QR分解中,它就是核心步骤。
🧠 [直觉心智模型]
  1. 矫正一个歪掉的房间
  2. 你进入一个房间,墙壁都不是垂直的,地板也不是平的(一个斜交的 $\{\mathbf{v}_i\}$)。
  3. Gram-Schmidt 过程就像一个施工队:
  1. 先选定一面墙 $\mathbf{v}_1$ 作为基准,把它“扶正”(单位化成 $\mathbf{u}_1$)。
  2. 然后来看第二面墙 $\mathbf{v}_2$。它相对于基准墙是斜的。施工队计算出它的“倾斜度”(投影),然后把这个倾斜的部分“砍掉”,剩下的部分就和基准墙垂直了。再把这部分标准化,得到第二面标准墙 $\mathbf{u}_2$
  3. 再看天花板 $\mathbf{v}_3$。它相对于前两面墙构成的墙角也是斜的。施工队把它在两面墙上的倾斜度都砍掉,剩下的部分就同时垂直于两面墙。再标准化得到 $\mathbf{u}_3$
    • 最终,你把一个歪房间改造成了一个标准的、方方正正的房间(标准正交基 $\{\mathbf{u}_i\}$)。
💭 [直观想象]
  1. 整理一堆乱七八糟的木棍
  2. 你有一堆长短不一、方向各异的木棍(线性无关向量 $\{\mathbf{v}_i\}$)。
  3. Gram-Schmidt 过程:
  1. 拿起第一根木棍 $\mathbf{v}_1$,把它截成标准长度(1米),得到 $\mathbf{u}_1$。把它固定在地上。
  2. 拿起第二根木棍 $\mathbf{v}_2$。用 $\mathbf{u}_1$ 去比一下,看看 $\mathbf{v}_2$$\mathbf{u}_1$ 方向上“出头”了多少。把这个“出头”的部分减掉。现在剩下的部分就和 $\mathbf{u}_1$ 垂直了。再把它也截成1米长,得到 $\mathbf{u}_2$
  3. 拿起第三根木棍 $\mathbf{v}_3$。分别用 $\mathbf{u}_1$$\mathbf{u}_2$ 去比,把在两个方向上“出头”的部分都减掉。剩下的部分就同时与 $\mathbf{u}_1, \mathbf{u}_2$ 垂直。再截成1米长,得到 $\mathbf{u}_3$
    • 最后,你得到了一组长度都是1米且两两垂直的木棍,一个完美的直角坐标系的模型。

3. 矩阵

13.1. 矩阵的基本定义与运算

📜 [原文15]

回想一下,$m \times n$ 矩阵是一个矩形数组

$$ A=\left(\begin{array}{cccc} a_{11} & a_{12} & \ldots & a_{1 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m 1} & a_{m 2} & \ldots & a_{m n} \end{array}\right) $$

我们通常将其缩写为 $A=\left(a_{i j}\right)$。上面的矩阵$m$ 行和 $n$ 列组成。我们将数字 $a_{i j}$ 称为 $(i, j)$ 元素。这意味着 $a_{i j}$ 是第 $i$ 行第 $j$ 列的数字。特别是,向量 $\left(x_{1}, \ldots, x_{n}\right)$ 也是一个矩阵,在这种情况下是一个 $1 \times n$ 矩阵。我们称这种矩阵行向量。我们也可以将向量视为 $n \times 1$ 矩阵,我们称之为列向量。(由于我们对函数书写方式的约定,我们通常需要将向量视为列向量。)所有 $m \times n$ 矩阵的集合写作 $\mathbb{M}_{m, n}(\mathbb{R})$$\mathbb{M}_{m, n}(\mathbb{C}), \mathbb{M}_{m, n}(\mathbb{Q})$,甚至 $\mathbb{M}_{m, n}(\mathbb{Z})$ 也有类似的定义。在 $m=n$ 的情况下,我们将 $\mathbb{M}_{n, n}(\mathbb{R})$ 缩写为 $\mathbb{M}_{n}(\mathbb{R})$,并称这种矩阵方阵$n \times n$矩阵$\mathbb{M}_{n}(\mathbb{C}), \mathbb{M}_{n}(\mathbb{Q})$$\mathbb{M}_{n}(\mathbb{Z})$ 也有类似称呼。我们可以通过将对应元素相加来将 $\mathbb{M}_{m, n}(\mathbb{R})$ 中的两个矩阵 $A$$B$ 相加,并且可以将矩阵 $A$ 乘以标量 $t$。因此,$\left(a_{i j}\right)+\left(b_{i j}\right)=\left(a_{i j}+b_{i j}\right)$$t\left(a_{i j}\right)=\left(t a_{i j}\right)$。零矩阵 $O=O_{m, n} \in \mathbb{M}_{m, n}(\mathbb{R})$ 是所有元素都为 0 的矩阵。除了元素排序问题,$\mathbb{M}_{m, n}(\mathbb{R})$ 实际上与 $\mathbb{R}^{m n}$ 是同一回事,并且加法和标量乘法与常规向量运算相同。

📖 [逐步解释]

这部分内容回顾了矩阵的基本定义、相关术语以及矩阵的两种基本运算:加法标量乘法

  1. 矩阵的定义
    • 一个 $m \times n$ 矩阵被定义为一个矩形的数字排列,有 $m$ 行 (rows) 和 $n$ 列 (columns)。
    • $a_{ij}$矩阵 $A$ 的一个元素,其中第一个下标 $i$ 代表它所在的行号,第二个下标 $j$ 代表列号。这个约定必须牢记。
    • $A=(a_{ij})$矩阵的紧凑记法。
  2. 向量作为矩阵
    • 作者将我们之前讨论的向量矩阵联系起来。
    • 一个向量 $(x_1, \ldots, x_n)$ 可以被看作是一个只有一行的矩阵,即 $1 \times n$ 矩阵,称为行向量 (row vector)
    • 同样,它也可以被看作是一个只有一列的矩阵,即 $n \times 1$ 矩阵,称为列向量 (column vector)
    • 作者特别指出,在线性代数中,特别是当矩阵要作用于向量时(函数应用),通常约定将向量写成列向量的形式。这是后续理解矩阵乘法的关键。
  3. 矩阵集合的符号
    • $\mathbb{M}_{m,n}(\mathbb{R})$:表示所有 $m \times n$ 实数矩阵的集合。
    • 括号里的 $\mathbb{R}$ 指明了矩阵中元素的来源。它可以被替换为复数 $\mathbb{C}$有理数 $\mathbb{Q}$,甚至是整数 $\mathbb{Z}$
    • 方阵 (Square Matrix):当行数和列数相等时 ($m=n$),这种矩阵被称为 $n \times n$ 方阵。其集合简写为 $\mathbb{M}_n(\mathbb{R})$方阵有许多特殊的性质,是线性代数研究的核心对象之一。
  4. 矩阵的加法和标量乘法
    • 矩阵加法:只有尺寸相同的两个矩阵才能相加。加法被定义为对应位置的元素相加。$(A+B)_{ij} = a_{ij} + b_{ij}$
    • 标量乘法:一个标量 $t$ 乘以一个矩阵 $A$,结果是将矩阵每一个元素都乘以 $t$$(tA)_{ij} = t \cdot a_{ij}$
    • 零矩阵 (Zero Matrix) $O$:所有元素都为 0 的矩阵。它在矩阵加法中扮演单位元的角色 ($A+O=A$)。
  5. 矩阵空间与向量空间的关系
    • 作者提出了一个深刻的见解:所有 $m \times n$ 矩阵组成的集合 $\mathbb{M}_{m,n}(\mathbb{R})$,在刚刚定义的矩阵加法标量乘法下,其本身也构成一个向量空间
    • 这个向量空间$\mathbb{R}^{mn}$ 是“同构”的。意思是,我们可以把一个 $m \times n$ 矩阵的所有 $mn$ 个元素按一定顺序(比如逐行)拉直,就得到了一个 $\mathbb{R}^{mn}$ 中的向量矩阵的加法和标量乘法在这种“拉直”操作下,与 $\mathbb{R}^{mn}$向量的加法和标量乘法是完全对应的。
    • 这意味着,我们之前讨论的关于向量空间的所有概念(线性无关维数等)都可以应用在矩阵空间上。例如,矩阵空间 $\mathbb{M}_{m,n}(\mathbb{R})$维数就是 $mn$
∑ [公式拆解]

公式:

$$ A=\left(\begin{array}{cccc} a_{11} & a_{12} & \ldots & a_{1 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m 1} & a_{m 2} & \ldots & a_{m n} \end{array}\right) $$

  • 这是一个 $m \times n$ 矩阵 $A$ 的标准写法。
  • $a_{ij}$ 代表第 $i$ 行、第 $j$ 列的元素。
  • $\vdots$ (vertical ellipsis), $\ddots$ (diagonal ellipsis), $\ldots$ (horizontal ellipsis) 分别表示省略了中间的行、对角线和列。
💡 [数值示例]

$A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}$, $B = \begin{pmatrix} 5 & 0 \\ -1 & 7 \end{pmatrix}$ 都是 $\mathbb{M}_2(\mathbb{R})$ 中的矩阵。令 $t=3$

示例 1:矩阵加法

  • $A+B = \begin{pmatrix} 1+5 & 2+0 \\ 3+(-1) & 4+7 \end{pmatrix} = \begin{pmatrix} 6 & 2 \\ 2 & 11 \end{pmatrix}$
  • 结果仍然是一个 $2 \times 2$ 矩阵

示例 2:标量乘法

  • $tA = 3 \cdot \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix} = \begin{pmatrix} 3 \cdot 1 & 3 \cdot 2 \\ 3 \cdot 3 & 3 \cdot 4 \end{pmatrix} = \begin{pmatrix} 3 & 6 \\ 9 & 12 \end{pmatrix}$

示例 3:向量作为矩阵

  • 向量 $\mathbf{v}=(5,8, -2)$
  • 作为行向量$\begin{pmatrix} 5 & 8 & -2 \end{pmatrix}$,这是一个 $1 \times 3$ 矩阵
  • 作为列向量$\begin{pmatrix} 5 \\ 8 \\ -2 \end{pmatrix}$,这是一个 $3 \times 1$ 矩阵
⚠️ [易错点]
  1. 下标顺序:必须牢记 $a_{ij}$$i$ 是行、$j$ 是列。在编程(如Python的Numpy库)中,这通常对应于 A[i, j]A[i][j]
  2. 加法尺寸:不同尺寸的矩阵不能相加。例如,一个 $2 \times 3$ 矩阵不能和一个 $2 \times 2$ 矩阵相加。
  3. 行向量 vs 列向量:虽然它们包含相同的信息,但在矩阵乘法中,它们扮演的角色完全不同,不能混用。务必注意上下文的约定。
📝 [总结]

本段回顾了矩阵的定义,它是一个数字的矩形阵列。关键术语包括元素方阵行向量列向量。接着定义了矩阵的两种基本运算——加法(对应元素相加)和标量乘法(每个元素都乘以该标量),并指出在这些运算下,所有 $m \times n$ 矩阵构成的集合 $\mathbb{M}_{m,n}(\mathbb{R})$ 本身就是一个维数$mn$向量空间

🎯 [存在目的]

本段的目的是将矩阵作为一种新的代数对象引入,并建立它与向量空间理论的联系。

  1. 建立数据结构矩阵是组织和存储数据的极其有效的方式。例如,一个线性方程组的系数、一张灰度图像的像素值、一个图中节点间的连接关系,都可以用矩阵来表示。
  2. 定义新的向量空间:通过将矩阵集合本身看作一个向量空间,作者展示了向量空间概念的广泛适用性,向量不一定非得是 $\mathbb{R}^n$ 中的一个“箭头”。
  3. 为线性变换铺路:本段只是一个铺垫。矩阵线性代数中最重要的角色是用来 表示 线性变换(即保持向量空间结构的函数)。接下来的矩阵乘法将揭示矩阵是如何“作用”于向量并实现这种变换的。
🧠 [直觉心智模型]
  1. 矩阵是一个电子表格
  2. 一个矩阵就像一个 Excel 电子表格。
  3. $m$ 是行数,$n$ 是列数。
  4. $a_{ij}$ 是第 $i$ 行第 $j$ 列单元格里的数字。
  5. 矩阵加法:将两个同样大小的表格,对应单元格的数字相加,得到一个新表格。
  6. 标量乘法:将表格里所有单元格的数字都乘以一个数(比如,将所有销售数据都上调10%)。
💭 [直观想象]
  1. 矩阵是一张像素图
  2. 一个矩阵可以表示一张灰度图像,其中每个元素 $a_{ij}$ 是图像在第 $i$ 行第 $j$ 列的像素亮度值。
  3. 矩阵加法:将两张图片“叠加”在一起(对应像素的亮度相加)。
  4. 标量乘法:调整整张图片的亮度和对比度。乘以一个大于1的数使图片变亮,乘以一个小于1的数使图片变暗。
23.2. 矩阵乘法

📜 [原文16]

给定一个 $m \times n$ 矩阵 $A$ 和一个 $n \times k$ 矩阵 $B$,我们可以形成矩阵积 $AB$,它是一个 $m \times k$ 矩阵,其 $(i, j)$ 元素由 $\sum_{t=1}^{n} a_{i t} b_{t j}$ 给出。因此,$(i, j)$ 元素是 $A$ 的第 $i$ 行与 $B$ 的第 $j$ 列的内积。象征性地,如果我们写作

$$ A=\left(\begin{array}{c} \mathbf{r}_{1} \\ \vdots \\ \mathbf{r}_{m} \end{array}\right) \text{ 且 } B=\left(\mathbf{c}_{1}, \cdots, \mathbf{c}_{k}\right) $$

其中 $\mathbf{r}_{i}$ 表示 $A$ 的第 $i$ 行,$\mathbf{c}_{j}$ 表示 $B$ 的第 $j$ 列,那么 $AB$$(i, j)$ 元素是 $\left\langle\mathbf{r}_{i}, \mathbf{c}_{j}\right\rangle$

矩阵乘法具有结合性,且对矩阵加法(在定义域内)具有分配性,但对于 $A, B \in \mathbb{M}_{n}(\mathbb{R})$(这是 $AB$$BA$ 都定义且形状相同的唯一情况),并且对于 $n>1$,通常不满足 $AB=BA$矩阵乘法通常不具有交换性。$\mathbb{M}_{n}(\mathbb{R})$ 的一个重要元素是单位矩阵 $I_{n}=I$,其对角线元素 $a_{i i}$ 等于 1,其他元素 $a_{i j}, i \neq j$ 等于 0。等价地,

$$ I_{n}=\left(\mathbf{e}_{1}, \ldots, \mathbf{e}_{n}\right)=\left(\begin{array}{c} \mathbf{e}_{1} \\ \vdots \\ \mathbf{e}_{n} \end{array}\right) $$

其中 $\mathbf{e}_{1}, \ldots, \mathbf{e}_{n}$$\mathbb{R}^{n}$ 中的标准基。很容易看出,对于所有 $A \in \mathbb{M}_{m, n}(\mathbb{R})$$I_{m} A= A I_{n}=A$。当 $n$ 从上下文中清楚时,我们将 $I_{n}$ 缩写为 $I$

📖 [逐步解释]

这部分定义了矩阵之间最重要、最独特的运算——矩阵乘法,并阐述了它的基本性质。

  1. 矩阵乘法的定义
    • 尺寸要求矩阵乘法 $AB$ 并非对任意两个矩阵都有定义。它要求第一个矩阵 $A$列数 必须等于第二个矩阵 $B$行数。如果 $A$$m \times n$ 的,那么 $B$ 必须是 $n \times k$ 的。
    • 结果尺寸:乘积 $C=AB$ 的尺寸是 $m \times k$,即它有第一个矩阵的行数和第二个矩阵的列数。
    • 元素计算:结果矩阵 $C$ 中第 $i$ 行、第 $j$ 列的元素 $c_{ij}$,是由 $A$ 的第 $i$ 行和 $B$ 的第 $j$ 列计算得出的。
    • 核心规则:“行乘以列”:计算 $c_{ij}$ 的方法,就是将 $A$ 的第 $i$ 行看作一个向量,将 $B$ 的第 $j$ 列看作一个向量,然后计算这两个向量内积点积)。
    • $c_{ij} = (AB)_{ij} = \sum_{t=1}^n a_{it}b_{tj} = \text{A的第i行} \cdot \text{B的第j列}$
  2. 矩阵乘法的性质
    • 结合律 (Associativity)$(AB)C = A(BC)$。只要尺寸允许相乘,运算顺序无所谓。这个性质非常重要,但其直接证明相当繁琐。后面会给出一个更“概念性”的证明。
    • 分配律 (Distributivity)$A(B+C) = AB+AC$$(A+B)C = AC+BC$矩阵乘法矩阵加法满足分配律。
    • 不满足交换律 (Non-commutativity):这是矩阵乘法与普通数字乘法最根本的区别。在绝大多数情况下,$AB \neq BA$
    • 首先,如果 $A, B$ 不是方阵$AB$$BA$ 可能只有一个有定义,或者尺寸完全不同,根本无法比较。
    • 即使 $A, B$ 都是 $n \times n$ 方阵,使得 $AB$$BA$ 都有定义且尺寸相同,它们的结果也通常是不同的。
  3. 单位矩阵 (Identity Matrix)
    • 单位矩阵 $I_n$ 是一个 $n \times n$方阵
    • 定义:它的主对角线(从左上到右下的元素 $a_{ii}$)上的元素都是1,所有其他位置的元素都是0。
    • 向量表示:可以将 $I_n$ 的列看作是 $\mathbb{R}^n$标准基向量 $\mathbf{e}_1, \ldots, \mathbf{e}_n$ 排成的列向量。也可以将其行看作是标准基向量排成的行向量
    • 乘法单位元单位矩阵矩阵乘法中扮演着数字 1 的角色。任何矩阵 $A$ 乘以一个尺寸合适的单位矩阵,结果还是 $A$ 本身。
    • $I_m A = A$ (左乘)
    • $A I_n = A$ (右乘)
    • 这个性质的验证可以通过矩阵乘法的定义直接进行。例如,$(AI_n)_{ij} = \sum_t a_{it} (I_n)_{tj}$。在和式中,只有当 $t=j$$(I_n)_{tj}$ 才为1,其余都为0。所以和式只剩下 $a_{ij} \cdot 1 = a_{ij}$
∑ [公式拆解]

公式1:

$$ A=\left(\begin{array}{c} \mathbf{r}_{1} \\ \vdots \\ \mathbf{r}_{m} \end{array}\right) \text{ 且 } B=\left(\mathbf{c}_{1}, \cdots, \mathbf{c}_{k}\right) $$

  • 这是一种对矩阵分块的“象征性”写法。
  • $A$ 被看作是由 $m$行向量 $\mathbf{r}_1, \ldots, \mathbf{r}_m$ 堆叠而成。
  • $B$ 被看作是由 $k$列向量 $\mathbf{c}_1, \ldots, \mathbf{c}_k$ 并排而成。
  • 这种写法使得矩阵乘积 $AB$$(i,j)$ 元素可以非常直观地写成内积 $\langle \mathbf{r}_i, \mathbf{c}_j \rangle$

公式2:

$$ I_{n}=\left(\mathbf{e}_{1}, \ldots, \mathbf{e}_{n}\right)=\left(\begin{array}{c} \mathbf{e}_{1} \\ \vdots \\ \mathbf{e}_{n} \end{array}\right) $$

  • 这是单位矩阵的两种向量表示。
  • $I_n = (\mathbf{e}_1, \ldots, \mathbf{e}_n)$ 表示将标准基向量作为列向量横向排列。

例如 $I_2 = (\begin{pmatrix}1\\0\end{pmatrix}, \begin{pmatrix}0\\1\end{pmatrix}) = \begin{pmatrix}1 & 0 \\ 0 & 1\end{pmatrix}$

  • $I_n = \begin{pmatrix}\mathbf{e}_1^T \\ \vdots \\ \mathbf{e}_n^T \end{pmatrix}$ (原文的写法有些歧义,应为行向量) 表示将标准基向量作为行向量纵向堆叠。

例如 $I_2 = \begin{pmatrix}(1,0) \\ (0,1)\end{pmatrix} = \begin{pmatrix}1 & 0 \\ 0 & 1\end{pmatrix}$

💡 [数值示例]

$A = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix}$ ($2 \times 3$ 矩阵), $B = \begin{pmatrix} 7 & 8 \\ 9 & 1 \\ 2 & 3 \end{pmatrix}$ ($3 \times 2$ 矩阵)。

示例 1:矩阵乘法 $AB$

  • $A$$2 \times 3$, $B$$3 \times 2$$A$的列数(3) = $B$的行数(3),所以可以相乘。
  • 结果 $C=AB$ 将是一个 $2 \times 2$ 矩阵
  • $c_{11} = (A\text{的第1行}) \cdot (B\text{的第1列}) = (1,2,3) \cdot (7,9,2) = 1 \cdot 7 + 2 \cdot 9 + 3 \cdot 2 = 7+18+6 = 31$
  • $c_{12} = (A\text{的第1行}) \cdot (B\text{的第2列}) = (1,2,3) \cdot (8,1,3) = 1 \cdot 8 + 2 \cdot 1 + 3 \cdot 3 = 8+2+9 = 19$
  • $c_{21} = (A\text{的第2行}) \cdot (B\text{的第1列}) = (4,5,6) \cdot (7,9,2) = 4 \cdot 7 + 5 \cdot 9 + 6 \cdot 2 = 28+45+12 = 85$
  • $c_{22} = (A\text{的第2行}) \cdot (B\text{的第2列}) = (4,5,6) \cdot (8,1,3) = 4 \cdot 8 + 5 \cdot 1 + 6 \cdot 3 = 32+5+18 = 55$
  • 所以,$AB = \begin{pmatrix} 31 & 19 \\ 85 & 55 \end{pmatrix}$

示例 2:不满足交换律 $BA$

  • $B$$3 \times 2$, $A$$2 \times 3$$B$的列数(2) = $A$的行数(2),所以可以相乘。
  • 结果 $D=BA$ 将是一个 $3 \times 3$ 矩阵
  • 仅从结果尺寸($AB$$2 \times 2$, $BA$$3 \times 3$)就可以看出 $AB \neq BA$

示例 3:单位矩阵的作用

  • $A = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix}$ ($2 \times 3$)。
  • 左乘 $I_2 = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}$

$I_2 A = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix} = \begin{pmatrix} 1 \cdot 1+0 \cdot 4 & 1 \cdot 2+0 \cdot 5 & 1 \cdot 3+0 \cdot 6 \\ 0 \cdot 1+1 \cdot 4 & 0 \cdot 2+1 \cdot 5 & 0 \cdot 3+1 \cdot 6 \end{pmatrix} = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix} = A$

  • 右乘 $I_3 = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix}$

$A I_3 = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix} \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 \cdot 1+2 \cdot 0+3 \cdot 0 & \ldots \\ \ldots & \ldots \end{pmatrix} = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix} = A$

⚠️ [易错点]
  1. 尺寸匹配是首要条件:进行矩阵乘法前,必须先检查内维度是否匹配。
  2. 行乘以列,不是元素乘以元素矩阵乘法不是对应位置元素相乘(那种运算称为“哈达玛积”或“逐元素积”,有不同用途)。矩阵乘法的定义要复杂得多。
  3. 交换律的诱惑:由于我们对数字乘法交换律的根深蒂固的习惯,初学者极易在矩阵运算中不自觉地使用交换律,比如认为 $A(BA) = (AB)A$。这是致命错误。必须时刻提醒自己矩阵乘法没有交换律。
📝 [总结]

本段定义了矩阵乘法这一核心运算。其定义的关键是“行乘以列”规则,即结果矩阵$(i,j)$ 元素是第一个矩阵的第 $i$ 行与第二个矩阵的第 $j$ 列的内积矩阵乘法满足结合律分配律,但最关键的特性是不满足交换律。同时,引入了单位矩阵 $I_n$,它在矩阵乘法中起着类似于数字 1 的作用。

🎯 [存在目的]

矩阵乘法的定义看起来可能有些奇怪和不自然,但它这样定义的目的,是为了完美地匹配线性变换的“复合”。这将在下一节中详细阐述。

  1. 表示函数复合:如果矩阵 $A$ 代表一个线性变换 $G$矩阵 $B$ 代表另一个线性变换 $F$,那么矩阵的乘积 $AB$ 就代表了这两个线性变换的复合 $G \circ F$ (先做 $F$ 再做 $G$)。矩阵乘法结合律正是函数复合结合律的体现。
  2. 求解线性系统矩阵乘法提供了一种极其紧凑的方式来书写和操作线性方程组。方程组 $\sum_j a_{ij} x_j = b_i$ 可以简洁地写为 $A\mathbf{x} = \mathbf{b}$,其中 $\mathbf{x}$$\mathbf{b}$列向量
  3. 构建代数结构:在方阵集合 $\mathbb{M}_n(\mathbb{R})$ 上,矩阵加法矩阵乘法共同构成了一个“”(Ring) 的代数结构,这是一个比更复杂的结构。
🧠 [直觉心智模型]
  1. 食谱与成分的转换
  2. 矩阵 $B$ ($n \times k$):一个“基础食谱矩阵”。每一列代表一种基础酱料(比如烧烤酱、甜辣酱),每一行代表一种原材料(比如糖、盐、醋)。$b_{tj}$ 表示制作第 $j$ 种酱料需要 $b_{tj}$ 份的第 $t$ 种原材料。
  3. 矩阵 $A$ ($m \times n$):一个“最终菜品矩阵”。每一行代表一道最终菜品(比如烤鸡翅、炸鱼块),每一列代表一种基础酱料。$a_{it}$ 表示制作第 $i$ 道菜品需要 $a_{it}$ 份的第 $t$ 种酱料。
  4. 矩阵乘积 $AB$ ($m \times k$):一个新的“原材料需求矩阵”。它的 $(i,j)$ 元素 $(AB)_{ij}$ 表示什么?
  5. $(AB)_{ij} = \sum_t a_{it}b_{tj}$
  6. $a_{it}b_{tj}$ 表示:为了制作第 $i$ 道菜,其中需要用到第 $t$ 种酱料,而制作这些酱料又需要用到第 $j$ 种原材料。
  7. 把所有酱料 $t$ 的需求加起来 $\sum_t$,就得到了制作第 $i$ 道菜品,总共需要多少第 $j$ 种原材料。
  8. 这个模型体现了矩阵乘法作为一种“转换”或“流程”的复合。
💭 [直观想象]
  1. 航线网络
  2. 矩阵 $B$ ($n \times k$):从城市组 $K$ (k个城市) 到城市组 $N$ (n个城市) 的直飞航线数量。$b_{tj}$ 是从 $K$ 组第 $j$ 城到 $N$ 组第 $t$ 城的航线数。
  3. 矩阵 $A$ ($m \times n$):从城市组 $N$ (n个城市) 到城市组 $M$ (m个城市) 的直飞航线数量。$a_{it}$ 是从 $N$ 组第 $t$ 城到 $M$ 组第 $i$ 城的航线数。
  4. 矩阵乘积 $AB$ ($m \times k$):它的 $(i,j)$ 元素 $(AB)_{ij} = \sum_t a_{it}b_{tj}$ 表示从 $K$ 组的第 $j$ 个城市出发,经由 $N$ 组的某个城市中转,到达 $M$ 组的第 $i$ 个城市的 总路线方案数
  5. 这个想象体现了矩阵乘法在图论和网络分析中的应用,代表了路径的连接与复合。
33.3. 矩阵与线性变换

📜 [原文17]

回想一下,线性函数 $F: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 是一个函数 $F$,使得对于所有 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$$t \in \mathbb{R}$$F(\mathbf{v}+\mathbf{w})=F(\mathbf{v})+F(\mathbf{w})$$F(t \mathbf{v})=t F(\mathbf{v})$。一个线性函数通过其在标准基向量 $\mathbf{e}_{1}, \ldots, \mathbf{e}_{n}$ 上的值完全确定。反之,给定任何 $n$向量的序列 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{n} \in \mathbb{R}^{m}$,存在一个唯一的线性函数 $F: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$,使得对于所有 $i$$F\left(\mathbf{e}_{i}\right)=\mathbf{v}_{i}$,即 $F\left(x_{1}, \ldots, x_{n}\right)=\sum_{i} x_{i} \mathbf{v}_{i}$。在这种情况下,回想一下我们可以将一个 $m \times n$ 矩阵$F$ 关联起来:将向量 $\mathbf{v}_{i}=\left(a_{1 i}, \ldots, a_{m i}\right)$ 写入。然后我们将矩阵$F$ 关联起来

$$ A=\left(\begin{array}{cccc} a_{11} & a_{12} & \ldots & a_{1 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m 1} & a_{m 2} & \ldots & a_{m n} \end{array}\right) $$

这里 $A$ 的列是向量 $\mathbf{v}_{i}$,写成列的形式,并且线性映射 $F\left(x_{1}, \ldots, x_{n}\right)$ 对应于矩阵积 $A \cdot \mathbf{x}$,其中 $A \cdot \mathbf{x}$ 是一个 $n \times 1$ 矩阵列向量),其第 $j$ 个元素是 $\sum_{i=1}^{n} a_{j i} x_{i}$。特别地,$A \cdot \mathbf{e}_{i}=\mathbf{v}_{i}$,写成列向量;其第 $j$ 个元素是 $a_{j i}$,并且它等于 $\sum_{j=1}^{m} a_{j i} \mathbf{e}_{j}$,其中在等式

$$ A \cdot \mathbf{e}_{i}=\sum_{j=1}^{m} a_{j i} \mathbf{e}_{j} $$

左侧的 $\mathbf{e}_{i}$$\mathbb{R}^{n}$ 中的基向量,右侧的 $\mathbf{e}_{j}$$\mathbb{R}^{m}$ 中的基向量。注意索引的倒置!$F: \mathbb{R}^{n} \rightarrow \mathbb{R}^{n}$ 的情况对应于方阵$n \times n$矩阵。例如,线性函数 $\operatorname{Id}_{\mathbb{R}^{n}}$ 对应于单位矩阵 $I_{n}$。然后我们有:

📖 [逐步解释]

这部分内容揭示了矩阵线性代数中的核心角色:作为线性函数(或称线性映射线性变换)的具体表示。

  1. 线性函数的定义
    • 一个从 $\mathbb{R}^n$$\mathbb{R}^m$ 的函数 $F$ 被称为是线性的,如果它保持向量空间的结构,即满足两条性质:
  2. 保持加法: $F(\mathbf{v}+\mathbf{w}) = F(\mathbf{v}) + F(\mathbf{w})$
  3. 保持标量乘法: $F(t\mathbf{v}) = tF(\mathbf{v})$
    • 直观上,一个线性变换可能旋转、缩放、投影、剪切空间,但它保持网格线平行且等距,并且保持原点不动。
  4. 线性函数的确定性
    • 一个线性函数 $F$ 的行为,被它如何变换基向量所完全决定。
    • 任何一个向量 $\mathbf{x} = (x_1, \ldots, x_n)$ 都可以写成标准基线性组合$\mathbf{x} = \sum x_i \mathbf{e}_i$
    • 利用 $F$线性性质:$F(\mathbf{x}) = F(\sum x_i \mathbf{e}_i) = \sum F(x_i \mathbf{e}_i) = \sum x_i F(\mathbf{e}_i)$
    • 这个结果表明,只要我们知道了标准基向量 $\mathbf{e}_i$ 经过变换后变成了什么向量 $F(\mathbf{e}_i)$,我们就可以通过简单的线性组合计算出 任何 向量 $\mathbf{x}$ 的变换结果。
  5. 从线性函数构造矩阵
    • 这正是矩阵表示线性变换的关键所在。
    • 假设我们知道了 $F(\mathbf{e}_1), F(\mathbf{e}_2), \ldots, F(\mathbf{e}_n)$ 的结果。这些结果都是 $\mathbb{R}^m$ 中的向量。我们称它们为 $\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n$
    • 构造规则:构造一个 $m \times n$ 矩阵 $A$,其 $i$ 就由向量 $\mathbf{v}_i = F(\mathbf{e}_i)$ 的分量构成。
    • $A = \begin{pmatrix} | & | & & | \\ \mathbf{v}_1 & \mathbf{v}_2 & \cdots & \mathbf{v}_n \\ | & | & & | \end{pmatrix}$
  6. 矩阵乘法与函数应用的对应
    • 有了这个矩阵 $A$,那么线性函数 $F$ 作用于任意向量 $\mathbf{x}$ 的过程 $F(\mathbf{x})$,就完全等价于矩阵 $A$列向量 $\mathbf{x}$矩阵乘法 $A\mathbf{x}$
    • 我们来验证一下:
    • 这与我们上面推导出的 $F(\mathbf{x}) = \sum x_i F(\mathbf{e}_i)$ 完全一致。
    • 这解释了为什么矩阵乘法要定义成那个样子:它是为了让矩阵-向量乘法能够完美地模拟线性变换的“线性组合”过程。
  7. 索引倒置的说明
    • 作者提到了一个容易混淆的细节。$F(\mathbf{e}_i) = \mathbf{v}_i$$\mathbf{v}_i$矩阵 $A$ 的第 $i$ 列。
    • $\mathbf{v}_i$ 本身是 $\mathbb{R}^m$ 中的向量,其分量是 $(a_{1i}, a_{2i}, \ldots, a_{mi})$
    • 所以,$\mathbf{v}_i = \sum_{j=1}^m a_{ji} \mathbf{e}_j$。注意这里的求和下标是 $j$,代表在目标空间 $\mathbb{R}^m$ 中展开。
    • 所以我们有 $F(\mathbf{e}_i) = \sum_{j=1}^m a_{ji} \mathbf{e}_j$
    • 左边的 $\mathbf{e}_i$$\mathbb{R}^n$ 的第 $i$基向量,右边的 $\mathbf{e}_j$$\mathbb{R}^m$ 的第 $j$基向量。而矩阵元素 $a_{ji}$ 的列索引 $i$ 对应源空间的基向量索引,行索引 $j$ 对应目标空间的基向量索引。这种索引关系初看有些绕,但它是矩阵表示法的内在逻辑。
  8. 特殊情况
    • 方阵:如果变换是从 $\mathbb{R}^n$ 到其自身,即 $F: \mathbb{R}^n \to \mathbb{R}^n$,那么对应的矩阵 $A$ 就是一个 $n \times n$ 方阵
    • 单位矩阵:恒等变换 $\operatorname{Id}(\mathbf{x}) = \mathbf{x}$ 是一个线性变换。它将每个标准基向量 $\mathbf{e}_i$ 变换为它自身 $\mathbf{e}_i$。所以构造出的矩阵,其第 $i$ 列就是 $\mathbf{e}_i$。这个矩阵正是单位矩阵 $I_n$
∑ [公式拆解]

公式1:

$$ A=\left(\begin{array}{cccc} a_{11} & a_{12} & \ldots & a_{1 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m 1} & a_{m 2} & \ldots & a_{m n} \end{array}\right) $$

  • 这个矩阵 $A$线性变换 $F$标准基下的“表示”。
  • 其第 $i$$(a_{1i}, a_{2i}, \ldots, a_{mi})^T$ 就是 $F$ 作用于第 $i$标准基向量 $\mathbf{e}_i$ 的结果 $F(\mathbf{e}_i)$

公式2:

$$ A \cdot \mathbf{e}_{i}=\sum_{j=1}^{m} a_{j i} \mathbf{e}_{j} $$

  • 这是一个等式,左边是矩阵向量的乘法,右边是一个向量线性组合表示。
  • $A \cdot \mathbf{e}_i$矩阵 $A$ 乘以第 $i$标准基向量。根据矩阵乘法的定义,这会精确地抽出 $A$ 的第 $i$ 列。这个结果是一个在 $\mathbb{R}^m$ 中的列向量
  • $\sum_{j=1}^{m} a_{j i} \mathbf{e}_{j}$:这是 $A$ 的第 $i$ 列这个向量,用目标空间 $\mathbb{R}^m$标准基 $\{\mathbf{e}_j\}$ 展开的形式。第 $i$ 列的元素是 $(a_{1i}, a_{2i}, \ldots, a_{mi})$,所以它的展开式就是 $a_{1i}\mathbf{e}_1 + a_{2i}\mathbf{e}_2 + \cdots + a_{mi}\mathbf{e}_m$,这与右边的求和是同一个意思(只是求和变量名不同)。
💡 [数值示例]

考虑一个从 $\mathbb{R}^2$$\mathbb{R}^3$线性变换 $F$

假设我们知道它对标准基的作用:

  • $F(\mathbf{e}_1) = F(1,0) = (1, 2, 3)$
  • $F(\mathbf{e}_2) = F(0,1) = (4, 5, 6)$

示例 1:构造矩阵 A

  • 根据规则,矩阵 $A$ 的第1列是 $F(\mathbf{e}_1)$,第2列是 $F(\mathbf{e}_2)$
  • 所以 $A = \begin{pmatrix} 1 & 4 \\ 2 & 5 \\ 3 & 6 \end{pmatrix}$。这是一个 $3 \times 2$ 矩阵

示例 2:使用矩阵计算任意向量的变换

  • 我们想知道 $F$ 如何变换向量 $\mathbf{x} = (10, -1)$
  • 方法一:使用线性性质

$F(10,-1) = F(10\mathbf{e}_1 - \mathbf{e}_2) = 10F(\mathbf{e}_1) - F(\mathbf{e}_2)$

$= 10(1,2,3) - (4,5,6) = (10,20,30) - (4,5,6) = (6, 15, 24)$

  • 方法二:使用矩阵乘法

$A\mathbf{x} = \begin{pmatrix} 1 & 4 \\ 2 & 5 \\ 3 & 6 \end{pmatrix} \begin{pmatrix} 10 \\ -1 \end{pmatrix} = \begin{pmatrix} 1 \cdot 10 + 4 \cdot (-1) \\ 2 \cdot 10 + 5 \cdot (-1) \\ 3 \cdot 10 + 6 \cdot (-1) \end{pmatrix} = \begin{pmatrix} 10-4 \\ 20-5 \\ 30-6 \end{pmatrix} = \begin{pmatrix} 6 \\ 15 \\ 24 \end{pmatrix}$

  • 两种方法结果完全一致。这表明,矩阵 $A$ 完美地编码了线性变换 $F$ 的所有信息。
⚠️ [易错点]
  1. 矩阵 vs 变换矩阵本身只是一个数字阵列,而线性变换是一个函数。矩阵线性变换某个特定基(这里是标准基)下的“表示”或“快照”。如果换一套,同一个线性变换会对应一个完全不同的矩阵。这个“基变换”是线性代数中一个更进阶但非常核心的主题。
  2. 列的顺序:构造矩阵时,第 $i$ 列必须对应 $F(\mathbf{e}_i)$,顺序不能错。
  3. 行向量 vs 列向量:这个对应关系成立的前提是,我们将输入向量 $\mathbf{x}$ 写成列向量。如果写成行向量,就需要用 $\mathbf{x}A^T$ 这样的形式,整个体系都会改变。所以,统一使用列向量的约定非常重要。
📝 [总结]

本段建立了线性代数中最核心的对应关系:任何一个从 $\mathbb{R}^n$$\mathbb{R}^m$线性变换 $F$,都可以唯一地由一个 $m \times n$矩阵 $A$ 来表示。这个矩阵的构造方法非常直观:它的第 $i$ 列就是标准基向量 $\mathbf{e}_i$ 经过 $F$ 变换后的像 $F(\mathbf{e}_i)$。一旦这个矩阵被构造出来,函数作用 $F(\mathbf{x})$ 就可以通过矩阵乘法 $A\mathbf{x}$ 来实现。这个美妙的对应关系是矩阵理论的基石。

🎯 [存在目的]

本段的目的在于揭示矩阵的“真实身份”。

  1. 具体化抽象函数线性变换是一个抽象的函数概念。矩阵为这个抽象概念提供了一个具体的、可以拿来计算的实体。我们可以通过操作矩阵来研究线性变换的性质。
  2. 统一语言:它将函数论(函数的定义、复合)和矩阵论矩阵的定义、乘法)统一在了一起。这使得我们可以用一套语言来描述两边的世界,并相互借鉴思想。例如,函数的“可逆”对应于矩阵的“可逆”。
  3. 解释矩阵乘法:它为上一节中那个看起来有些奇怪的矩阵乘法定义提供了完美的解释——它就是为了模拟线性变换的复合而量身定做的。
🧠 [直觉心智模型]
  1. 线性变换的“DNA”
  2. 一个线性变换 $F$ 是一个生物体。
  3. 标准基向量 $\{\mathbf{e}_i\}$ 是一组标准的“探针”。
  4. 你用这些探针去刺激这个生物体,记录下它的反应 $F(\mathbf{e}_i)$
  5. 矩阵 $A$ 就是这个生物体的“DNA序列”。它的每一列记录了对一个标准探针的反应。
  6. 这个DNA序列(矩阵 $A$)包含了该生物体(线性变换 $F$)的全部遗传信息。只要有了它,你就可以预测它对任何其他刺激(任意向量 $\mathbf{x}$)会做出何种反应($A\mathbf{x}$)。
💭 [直观想象]
  1. 一个机器人的指令集
  2. 线性变换 $F$ 是一个机器人的运动程序。
  3. 标准基 $\mathbf{e}_1=(1,0), \mathbf{e}_2=(0,1)$ 是两个基本指令:“向东走一步”,“向北走一步”。
  4. 你测试这个机器人:
  5. 给它指令“向东走一步”,它实际走到了位置 $(a,c)$(即 $F(\mathbf{e}_1)=(a,c)$)。
  6. 给它指令“向北走一步”,它实际走到了位置 $(b,d)$(即 $F(\mathbf{e}_2)=(b,d)$)。
  7. 矩阵 $A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}$ 就是这个机器人的“运动特性矩阵”。
  8. 现在你想知道,如果给它一个复杂指令“向东走 $x$ 步,向北走 $y$ 步”(即输入向量 $(x,y)$),它最终会走到哪里?
  9. 答案就是矩阵乘法$\begin{pmatrix} a & b \\ c & d \end{pmatrix} \begin{pmatrix} x \\ y \end{pmatrix} = \begin{pmatrix} ax+by \\ cx+dy \end{pmatrix}$
43.4. 矩阵乘法与函数复合

📜 [原文18]

命题 4.2.1. 如果 $F: \mathbb{R}^{k} \rightarrow \mathbb{R}^{n}$$G: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$线性映射,并且 $A \in \mathbb{M}_{m, n}(\mathbb{R})$$B \in \mathbb{M}_{n, k}(\mathbb{R})$ 分别是对应于 $G$$F$矩阵,那么 $G \circ F: \mathbb{R}^{k} \rightarrow \mathbb{R}^{m}$ 再次是线性的,并且对应于 $G \circ F$矩阵矩阵积 $A \cdot B$

证明. 我们省略 $G \circ F$线性的简单验证。根据线性函数矩阵之间关系的公式,

$$ \begin{aligned} F\left(\mathbf{e}_{i}\right) & =\sum_{j=1}^{n} b_{j i} \mathbf{e}_{j} \\ G\left(\mathbf{e}_{j}\right) & =\sum_{k=1}^{m} a_{k j} \mathbf{e}_{k} \end{aligned} $$

因此,计算得到

$$ \begin{aligned} (G \circ F)\left(\mathbf{e}_{i}\right) & =\sum_{j=1}^{n} b_{j i} G\left(\mathbf{e}_{j}\right)=\sum_{k=1}^{m} a_{k j}\left(\sum_{j=1}^{n} b_{j i} \mathbf{e}_{k}\right) \\ & =\sum_{k=1}^{m}\left(\sum_{j=1}^{n} a_{k j} b_{j i}\right) \mathbf{e}_{k} \end{aligned} $$

这意味着对应于 $G \circ F$矩阵$(i, k)$ 元素是 $\sum_{j=1}^{n} a_{i j} b_{j k}$。在重新标记索引后,这正是 $A \cdot B$$(i, k)$ 元素。

这为矩阵乘法的结合性提供了一个概念性证明:它具有结合性是因为函数复合具有结合性。(反之,我们也可以利用矩阵乘法的结合性来证明命题 4.2.1。)

矩阵乘法特别是一种方便描述线性方程组的方法:方程组

$$ \begin{array}{cccccccc} a_{11} x_{1} & + & a_{12} x_{2} & + & \cdots & + & a_{1 n} x_{n} & = \\ \vdots & & \vdots & & & & \vdots & \\ a_{m 1} x_{1} & + & a_{m 2} x_{2} & + & \cdots & + & a_{m n} x_{n} & = \\ b_{m} \end{array} $$

更简洁地写为 $A \cdot \mathbf{x}=\mathbf{b}$

📖 [逐步解释]

这部分内容达到了前面铺垫的高潮,明确指出了矩阵乘法函数复合之间的深刻联系,并简要提及了矩阵在书写线性方程组中的便捷性。

  1. 命题 4.2.1:核心结论
    • 前提:
    • 有两个线性变换$F$ (从 $\mathbb{R}^k \to \mathbb{R}^n$) 和 $G$ (从 $\mathbb{R}^n \to \mathbb{R}^m$)。
    • $F$ 对应的矩阵$B$ (尺寸 $n \times k$)。
    • $G$ 对应的矩阵$A$ (尺寸 $m \times n$)。
    • 复合函数: 我们先对一个向量$F$ 变换,再对结果做 $G$ 变换,得到复合函数 $G \circ F$。这个新的函数是从 $\mathbb{R}^k$ 直接到 $\mathbb{R}^m$ 的。
    • 结论:
  2. 这个复合函数 $G \circ F$ 本身也是一个线性函数
  3. 表示 $G \circ F$ 这个新线性函数矩阵,恰好就是两个矩阵的乘积 $A \cdot B$
    • 重要提示: 注意顺序!函数复合是 $G \circ F$ (F first, G second),而对应的矩阵乘法$AB$。这个顺序的对应关系非常重要。
  4. 证明思路
    • 要找到复合函数 $G \circ F$ 对应的矩阵 $C$,我们只需要知道 $C$ 的每一列是什么。根据上一节的规则,$C$ 的第 $i$ 列就是 $(G \circ F)$ 作用在第 $i$标准基向量 $\mathbf{e}_i$ 上的结果。
    • 所以证明的目标就是计算 $(G \circ F)(\mathbf{e}_i)$
    • 第一步: 根据矩阵 $B$ 的定义, $F(\mathbf{e}_i)$$B$ 的第 $i$ 列,可以写成目标空间 $\mathbb{R}^n$基向量线性组合: $F(\mathbf{e}_i) = \sum_{j=1}^n b_{ji} \mathbf{e}_j$
    • 第二步: 将 $F(\mathbf{e}_i)$ 作为输入代入 $G$ 中。利用 $G$线性性质:
    • 第三步: 根据矩阵 $A$ 的定义,我们知道 $G$ 如何变换基向量 $\mathbf{e}_j$ (这里的 $\mathbf{e}_j$$\mathbb{R}^n$): $G(\mathbf{e}_j) = \sum_{k=1}^m a_{kj} \mathbf{e}_k$ (这里的 $\mathbf{e}_k$$\mathbb{R}^m$)。
    • 第四步: 将第三步的结果代入第二步:
    • 第五步: 整理求和顺序。我们可以先把关于 $k$ 的求和提到外面,因为 $b_{ji}$ 不依赖于 $k$
    • 第六步: 解读结果。这个公式告诉我们,复合函数作用在 $\mathbf{e}_i$ 上的结果,是一个 $\mathbb{R}^m$ 中的向量。这个向量$\mathbb{R}^m$ 的第 $k$基向量 $\mathbf{e}_k$ 上的坐标是 $(\sum_{j=1}^n a_{kj}b_{ji})$
    • 因此,代表复合函数 $G \circ F$矩阵 $C$,其第 $k$ 行、第 $i$ 列的元素 $c_{ki}$ 就是 $(\sum_{j=1}^n a_{kj}b_{ji})$
    • 这恰好就是矩阵乘积 $A \cdot B$$(k,i)$ 元素的定义!证明完成。
  5. 矩阵乘法结合律的概念性证明
    • 函数复合本身是满足结合律的:$H \circ (G \circ F) = (H \circ G) \circ F$。先做F再做G,然后做H;等同于先做F,然后做“G和H的组合”。这是函数的基本性质。
    • 既然矩阵乘法完美地对应于线性函数的复合,那么矩阵乘法结合律 $A(BC)=(AB)C$ 就是函数复合结合律的直接“翻译”。
    • 这个证明比直接用元素去展开证明要优雅得多,更能体现数学结构之间的联系。
  6. 矩阵与线性方程组
    • 作者最后回到一个非常实际的应用。一个包含 $m$ 个方程、$n$ 个未知数的线性方程组可以被简洁地表示为矩阵形式。
    • 将所有系数 $a_{ij}$ 组成一个 $m \times n$矩阵 $A$
    • 将所有未知数 $x_j$ 组成一个 $n \times 1$列向量 $\mathbf{x}$
    • 将所有等号右边的常数 $b_i$ 组成一个 $m \times 1$列向量 $\mathbf{b}$
    • 那么,整个庞大的方程组就可以用一个极其简洁的矩阵方程来表示:$A\mathbf{x} = \mathbf{b}$
    • 这是因为矩阵-向量乘法 $A\mathbf{x}$ 的结果向量的第 $i$ 个元素,正好是 $\sum_j a_{ij}x_j$,这与原方程组的第 $i$ 个方程的左边完全一样。
∑ [公式拆解]

公式1 & 2:

$$ \begin{aligned} F\left(\mathbf{e}_{i}\right) & =\sum_{j=1}^{n} b_{j i} \mathbf{e}_{j} \\ G\left(\mathbf{e}_{j}\right) & =\sum_{k=1}^{m} a_{k j} \mathbf{e}_{k} \end{aligned} $$

  • 这是证明的关键前提,它重申了矩阵是如何由线性变换基向量的作用定义的。
  • 第一行: 变换 $F$ 作用于源空间 $\mathbb{R}^k$ 的第 $i$基向量 $\mathbf{e}_i$ 上,得到的结果是在目标空间 $\mathbb{R}^n$ 中的一个向量。这个向量$\mathbb{R}^n$ $\{\mathbf{e}_j\}$ 展开,其坐标系数就是矩阵 $B$ 的第 $i$ 列的元素 $b_{ji}$
  • 第二行: 变换 $G$ 作用于源空间 $\mathbb{R}^n$ 的第 $j$基向量 $\mathbf{e}_j$ 上,得到的结果是在目标空间 $\mathbb{R}^m$ 中的一个向量。这个向量$\mathbb{R}^m$ $\{\mathbf{e}_k\}$ 展开,其坐标系数就是矩阵 $A$ 的第 $j$ 列的元素 $a_{kj}$
  • 注意这里基向量符号 $\mathbf{e}$ 的复用,它们在不同上下文中代表不同空间的基向量

公式3 & 4:

$$ \begin{aligned} (G \circ F)\left(\mathbf{e}_{i}\right) & =\sum_{j=1}^{n} b_{j i} G\left(\mathbf{e}_{j}\right)=\sum_{k=1}^{m} a_{k j}\left(\sum_{j=1}^{n} b_{j i} \mathbf{e}_{k}\right) \\ & =\sum_{k=1}^{m}\left(\sum_{j=1}^{n} a_{k j} b_{j i}\right) \mathbf{e}_{k} \end{aligned} $$

  • 这是证明的核心推导步骤,已在[逐步解释]中详细分析。关键在于利用线性性质展开,然后代入矩阵的定义,最后巧妙地交换求和顺序来匹配矩阵乘法的定义。

公式5:

$$ \begin{array}{cccccccc} a_{11} x_{1} & + & a_{12} x_{2} & + & \cdots & + & a_{1 n} x_{n} & = \\ \vdots & & \vdots & & & & \vdots & \\ a_{m 1} x_{1} & + & a_{m 2} x_{2} & + & \cdots & + & a_{m n} x_{n} & = \\ b_{m} \end{array} $$

  • 这是一个标准的线性方程组
  • 它被等价地写作 $A\mathbf{x} = \mathbf{b}$
💡 [数值示例]
  • $F: \mathbb{R}^2 \to \mathbb{R}^3$ 是将 $(x,y)$ 映射到 $(x,y,0)$ 的变换(嵌入xy平面)。
  • $G: \mathbb{R}^3 \to \mathbb{R}^2$ 是将 $(x,y,z)$ 映射到 $(x-z, y)$ 的变换(投影)。
  • 求 F 对应的矩阵 B:

$F(\mathbf{e}_1) = F(1,0) = (1,0,0)$

$F(\mathbf{e}_2) = F(0,1) = (0,1,0)$

所以 $B = \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{pmatrix}$ ($3 \times 2$)。

  • 求 G 对应的矩阵 A:

$G(\mathbf{e}_1) = G(1,0,0) = (1,0)$

$G(\mathbf{e}_2) = G(0,1,0) = (0,1)$

$G(\mathbf{e}_3) = G(0,0,1) = (-1,0)$

所以 $A = \begin{pmatrix} 1 & 0 & -1 \\ 0 & 1 & 0 \end{pmatrix}$ ($2 \times 3$)。

  • 计算复合函数 $G \circ F$:

$(G \circ F)(x,y) = G(F(x,y)) = G(x,y,0) = (x-0, y) = (x,y)$

所以 $G \circ F$ 是从 $\mathbb{R}^2$ 到自身的恒等变换。

  • $G \circ F$ 对应的矩阵 C:

$(G \circ F)(\mathbf{e}_1) = (1,0)$

$(G \circ F)(\mathbf{e}_2) = (0,1)$

所以 $C = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} = I_2$

  • 计算矩阵乘积 $AB$:

$AB = \begin{pmatrix} 1 & 0 & -1 \\ 0 & 1 & 0 \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} 1\cdot1+0\cdot0+(-1)\cdot0 & 1\cdot0+0\cdot1+(-1)\cdot0 \\ 0\cdot1+1\cdot0+0\cdot0 & 0\cdot0+1\cdot1+0\cdot0 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} = I_2$

  • 结论: 我们看到,$G \circ F$ 对应的矩阵 $C$ 确实等于 $A$$B$矩阵乘积 $AB$
⚠️ [易错点]
  1. 顺序!顺序!顺序!:函数复合 $G \circ F$ (先F后G) 对应矩阵乘法 $AB$ (A左乘B)。这个顺序非常容易搞反。可以这样记:向量 $\mathbf{x}$ 在右边,先乘以离它近的矩阵 $B$,再乘以离它远的矩阵 $A$,即 $A(B\mathbf{x})$,这对应于先做 $F$ (由B表示) 再做 $G$ (由A表示)。
  2. 证明中的索引:证明过程中的多重索引 $i, j, k$ 及其求和范围很容易让人头晕。理解其每一步的逻辑比记忆公式本身更重要。
📝 [总结]

本段通过一个严谨的证明,揭示了矩阵乘法的本质:它精确地对应于线性变换的复合。这一深刻的联系不仅解释了为何矩阵乘法被那样定义,也为矩阵乘法结合律提供了一个优雅的概念性证明。最后,它还展示了矩阵乘法在简洁地表示线性方程组方面的实用价值。

🎯 [存在目的]

本段的目的是将线性代数的两个核心分支——矩阵理论和线性空间理论——彻底地融合在一起。

  1. 赋予矩阵乘法以意义:如果说之前矩阵乘法只是一个看起来有些随意的计算规则,本段则赋予了它“函数复合”这一极其重要和自然的意义。
  2. 实现代数与几何的转化:它使得我们可以将一个几何/函数问题(变换的复合)转化为一个代数问题(矩阵的乘法),反之亦然。这种转化是线性代数威力之所在。
  3. 连接抽象与具体线性方程组是一个非常具体的问题,而线性变换则比较抽象。矩阵表示法 $A\mathbf{x}=\mathbf{b}$ 将两者联系起来,解方程可以被理解为:寻找一个向量 $\mathbf{x}$,使得它经过线性变换 $A$ 之后,能够恰好落在目标向量 $\mathbf{b}$ 上。
🧠 [直觉心智模型]
  1. 多语言翻译
  2. 向量 $\mathbf{x}$ 是一句中文。
  3. 线性变换 $F$ (由矩阵 $B$ 代表) 是一个“中译英”的翻译器。$F(\mathbf{x})=B\mathbf{x}$ 得到一句英文。
  4. 线性变换 $G$ (由矩阵 $A$ 代表) 是一个“英译法”的翻译器。$G(\text{英文}) = A(\text{英文})$ 得到一句法文。
  5. 复合变换 $G \circ F$ 是一个“中译法”的直译器。
  6. 命题说的是:这个“中译法”直译器,可以由“英译法”翻译器 $A$ 和“中译英”翻译器 $B$矩阵乘积 $AB$ 来代表。即 $(G \circ F)(\mathbf{x}) = (AB)\mathbf{x}$
  7. 矩阵乘法就是将两个翻译流程合并成一个新流程的代数操作。
💭 [直观想象]
  1. 装配线上的两道工序
  2. 一个原材料向量 $\mathbf{x}$ 进入装配线。
  3. 第一道工序 $F$ (由矩阵 $B$ 代表) 对它进行加工,产出一个半成品 $B\mathbf{x}$
  4. 第二道工序 $G$ (由矩阵 $A$ 代表) 对半成品进行再加工,产出最终成品 $A(B\mathbf{x})$
  5. 矩阵乘积 $AB$ 代表了一个全新的“一体化”工序。你可以设计一台新机器,用 $AB$ 代表它的特性。把原材料 $\mathbf{x}$ 直接喂给这台新机器,它吐出的最终成品 $(AB)\mathbf{x}$,与经过两道老工序得到的结果是完全一样的。
  6. 矩阵乘法就是计算这台“一体化”机器特性的方法。

4. 可逆矩阵

14.1. 线性变换的单射与满射

📜 [原文19]

我们将线性映射 $F: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 写成矩阵 $A: F(\mathbf{v})=A \mathbf{v}$,其中理解为,对于右侧,$\mathbf{v}$ 必须被视为列向量。定义 $A$零空间为集合 $\left\{\mathbf{v} \in \mathbb{R}^{n}: A \mathbf{v}=\mathbf{0}\right\}$。然后我们有基本结果:

命题 4.3.1. $A$零空间向量子空间(分别为 $\mathbb{R}^{n}$$\mathbb{R}^{m}$ 的)。线性函数 $A: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$单射 $\Longleftrightarrow$ $A$零空间$\{\mathbf{0}\} \Longleftrightarrow$ $A$ 的列是线性无关的。线性函数 $A: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$满射 $\Longleftrightarrow$ $A$ 的列张成 $\mathbb{R}^{m}$。更一般地,$\operatorname{Im} A$$A$ 的列的张成

特别地,对于对应于 $A$线性方程组 $A \cdot \mathbf{x}=\mathbf{b}$,我们看到解存在 $\Longleftrightarrow \mathbf{b} \in \operatorname{Im} A$,并且解是唯一的(但可能不存在) $\Longleftrightarrow$ $A$零空间$\{\mathbf{0}\}$

📖 [逐步解释]

这部分内容将线性变换(由矩阵 $A$ 表示)与函数论中的单射 (injective) 和满射 (surjective) 概念联系起来,并引入了两个核心的子空间零空间 (null space) 和 (image)。

  1. 零空间 (Null Space) / 核 (Kernel)
    • 定义: 矩阵 $A$零空间,记作 $\operatorname{Nul}(A)$$\ker(A)$,是所有那些被矩阵 $A$ 变换后变成零向量的输入向量 $\mathbf{v}$ 的集合。
    • 即,它是齐次线性方程组 $A\mathbf{v}=\mathbf{0}$ 的所有解的集合。
    • 这个集合是输入空间 $\mathbb{R}^n$ 的一个子集
  2. 像 (Image) / 列空间 (Column Space)
    • 定义: 矩阵 $A$,记作 $\operatorname{Im}(A)$$\operatorname{Col}(A)$,是所有可能的输出向量的集合。也就是说,它是由输入空间 $\mathbb{R}^n$ 中所有向量经过 $A$ 变换后得到的所有结果构成的集合。
    • $\operatorname{Im}(A) = \{A\mathbf{v} : \mathbf{v} \in \mathbb{R}^n\}$
    • 这个集合是输出空间 $\mathbb{R}^m$ 的一个子集
  3. 命题 4.3.1:核心性质
    • 第一部分:子空间性质
    • 零空间这两个集合,不仅仅是子集,它们都是向量子空间
    • 零空间是子空间
  4. 非空:$A\mathbf{0}=\mathbf{0}$,所以 $\mathbf{0} \in \operatorname{Nul}(A)$
  5. 加法封闭:如果 $A\mathbf{v}=\mathbf{0}, A\mathbf{w}=\mathbf{0}$,则 $A(\mathbf{v}+\mathbf{w})=A\mathbf{v}+A\mathbf{w}=\mathbf{0}+\mathbf{0}=\mathbf{0}$
  6. 标量乘法封闭:如果 $A\mathbf{v}=\mathbf{0}$,则 $A(t\mathbf{v})=t(A\mathbf{v})=t\mathbf{0}=\mathbf{0}$
    • 像是子空间:这个结论源于列空间的等价性,下面会解释。
    • 第二部分:单射性 (Injectivity)
    • 单射的含义:一对一,不同的输入必有不同的输出。如果 $F(\mathbf{v})=F(\mathbf{w})$,则必有 $\mathbf{v}=\mathbf{w}$
    • 等价条件1:零空间:一个线性函数 $F$ (或矩阵 $A$) 是单射的,当且仅当它的零空间只包含零向量 $\mathbf{0}$
    • ($\Rightarrow$) 如果是单射,我们知道 $A\mathbf{0}=\mathbf{0}$。如果还有另一个向量 $\mathbf{v} \neq \mathbf{0}$ 使得 $A\mathbf{v}=\mathbf{0}$,那么 $A\mathbf{v}=A\mathbf{0}$$\mathbf{v} \neq \mathbf{0}$,与单射定义矛盾。所以零空间里只能有 $\mathbf{0}$
    • ($\Leftarrow$) 如果零空间只有 $\mathbf{0}$,假设 $A\mathbf{v}=A\mathbf{w}$。移项得 $A(\mathbf{v}-\mathbf{w})=\mathbf{0}$。这说明向量 $\mathbf{v}-\mathbf{w}$零空间里。既然零空间只有零向量,那么 $\mathbf{v}-\mathbf{w}=\mathbf{0}$,即 $\mathbf{v}=\mathbf{w}$。这正是单射的定义。
    • 等价条件2:列的线性无关性:一个矩阵 $A$单射的,当且仅当它的所有列向量线性无关的。
    • 原因:方程 $A\mathbf{x}=\mathbf{0}$ 可以写成 $x_1\mathbf{c}_1 + \cdots + x_n\mathbf{c}_n = \mathbf{0}$,其中 $\mathbf{c}_i$$A$ 的列向量零空间只有零向量意味着这个方程只有唯一解 $\mathbf{x}=\mathbf{0}$。而根据线性无关的定义,这恰好说明了列向量 $\mathbf{c}_1, \ldots, \mathbf{c}_n$线性无关的。
    • 第三部分:满射性 (Surjectivity)
    • 满射的含义:输出能够覆盖整个目标空间。对于目标空间 $\mathbb{R}^m$ 中的任意一个向量 $\mathbf{b}$,都至少存在一个输入向量 $\mathbf{x}$ 使得 $A\mathbf{x}=\mathbf{b}$
    • 等价条件:列张成空间:一个矩阵 $A$满射的,当且仅当它的列向量张成整个目标空间 $\mathbb{R}^m$
    • 原因: “$A$满射的”意味着 $\operatorname{Im}(A)$ 等于整个 $\mathbb{R}^m$。而更一般地,$\operatorname{Im}(A)$ 到底是什么?一个输出向量 $A\mathbf{x}$ 就是 $A$ 的列的线性组合$A\mathbf{x} = x_1\mathbf{c}_1 + \cdots + x_n\mathbf{c}_n$。所有这些可能的线性组合的集合,正是 $A$ 的列的张成空间 $\operatorname{span}\{\mathbf{c}_1, \ldots, \mathbf{c}_n\}$。因此,$\operatorname{Im}(A) = \operatorname{span}\{\mathbf{c}_i\}$。所以,“等于 $\mathbb{R}^m$” 就直接等价于 “列的张成等于 $\mathbb{R}^m$”。
  7. 与线性方程组的联系
    • 解的存在性:方程 $A\mathbf{x}=\mathbf{b}$ 有解,意味着 $\mathbf{b}$ 必须是一个可能的输出。也就是说,$\mathbf{b}$ 必须在 $A$(或列空间)中。
    • 解的唯一性:如果一个解 $\mathbf{x}_p$ 存在 ($A\mathbf{x}_p = \mathbf{b}$),那么通解是什么?设 $\mathbf{x}_h$齐次方程 $A\mathbf{x}=\mathbf{0}$ 的任意解(即 $\mathbf{x}_h \in \operatorname{Nul}(A)$),那么 $A(\mathbf{x}_p+\mathbf{x}_h) = A\mathbf{x}_p + A\mathbf{x}_h = \mathbf{b}+\mathbf{0} = \mathbf{b}$。这意味着 $\mathbf{x}_p+\mathbf{x}_h$ 也是一个解。
    • 因此,解是唯一的,当且仅当齐次方程只有零解,即零空间只有 $\mathbf{0}$。如果零空间非平凡,那么一旦有一个特解,就会有无穷多个解(特解加上零空间中的任意向量)。
💡 [数值示例]

$A = \begin{pmatrix} 1 & -1 \\ 1 & 1 \\ 0 & 1 \end{pmatrix}$ ($3 \times 2$)。这是一个从 $\mathbb{R}^2 \to \mathbb{R}^3$ 的变换。

示例 1:零空间与单射性

  • $A\mathbf{x}=\mathbf{0}$,即 $\begin{pmatrix} 1 & -1 \\ 1 & 1 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = \begin{pmatrix} 0 \\ 0 \\ 0 \end{pmatrix}$
  • 方程组是:$x_1-x_2=0$, $x_1+x_2=0$, $x_2=0$
  • 由第三个方程得 $x_2=0$。代入第一个或第二个,都得到 $x_1=0$
  • 唯一解是 $\mathbf{x}=(0,0)$。所以 $\operatorname{Nul}(A) = \{\mathbf{0}\}$
  • 结论:
  • 因为零空间只有零向量,所以该变换是单射的。
  • 这也意味着 $A$ 的列向量 $\begin{pmatrix}1\\1\\0\end{pmatrix}$$\begin{pmatrix}-1\\1\\1\end{pmatrix}$线性无关的。

示例 2:像与满射性

  • $A$列空间)是其列向量张成空间

$\operatorname{Im}(A) = \operatorname{span}\left\{ \begin{pmatrix}1\\1\\0\end{pmatrix}, \begin{pmatrix}-1\\1\\1\end{pmatrix} \right\}$

  • 这是由两个线性无关向量$\mathbb{R}^3$ 中张成的一个平面。
  • 这个平面不等于整个 $\mathbb{R}^3$ 空间。例如,向量 $\mathbf{b}=(1,0,0)$ 就不在这个平面上(无法被这两个向量线性组合出来)。
  • 结论:
  • 因为 $A$ 的列不能张成整个 $\mathbb{R}^3$,所以该变换不是满射的。
  • 这意味着,对于某些 $\mathbf{b}$(如 $(1,0,0)$),方程 $A\mathbf{x}=\mathbf{b}$ 无解。
⚠️ [易错点]
  1. 输入空间与输出空间零空间输入空间 $\mathbb{R}^n$子空间列空间)是输出空间 $\mathbb{R}^m$子空间。两者位于不同的“世界”。
  2. 行空间:除了列空间,还有一个“行空间”,即由矩阵的行向量张成子空间。它与列空间零空间一起,构成了线性代数基本定理所描述的四个基本子空间
  3. 单射/满射与矩阵形状:后面会看到,矩阵的形状 ($m \times n$) 对单射/满射有很强的限制。例如,如果 $n > m$(输入维度 > 输出维度),变换不可能是单射的(“压缩”必然导致信息丢失)。如果 $n < m$(输入维度 < 输出维度),变换不可能是满射的(低维空间无法“填满”高维空间)。
📝 [总结]

本段将函数的基本性质(单射满射)与矩阵的代数和几何属性(零空间列的线性无关/张成)紧密地联系在了一起。关键的对应关系是:

  1. 单射性 $\iff$ 零空间为平凡的 $\{\mathbf{0}\}$ $\iff$ 矩阵的列线性无关
  2. 满射性 $\iff$ 列空间)等于整个目标空间 $\iff$ 矩阵的列张成整个目标空间。

这些关系对于理解线性变换的行为以及判断线性方程组解的存在性和唯一性至关重要。

🎯 [存在目的]

本段的目的是为可逆性双射)做铺垫,并深化对矩阵四个基本子空间中两个的理解。

  1. 分解变换行为单射满射是从两个不同角度描述一个函数。“单射”关注的是输入是否被“混淆”,而“满射”关注的是输出是否“覆盖”了全部可能性。通过将它们与矩阵的列向量性质联系起来,我们可以通过检查矩阵本身来分析这些行为。
  2. 建立几何直观
    • 零空间:输入空间中被“压扁”成原点的子空间。一个庞大的零空间意味着变换丢失了大量信息。
    • 列空间):变换后所有可能结果构成的子空间。一个“瘦小”的意味着变换的“活动范围”很有限。
  3. 连接理论与应用:将抽象的函数性质与求解线性方程组这一具体应用联系起来。解的存在性问题被转化为判断一个向量是否在一个子空间)中的几何问题。解的唯一性问题被转化为计算另一个子空间零空间)的维数问题。
🧠 [直觉心智模型]
  1. 投影仪的比喻
  2. 一个线性变换 $A$ 就像一台投影仪。
  3. 输入空间 $\mathbb{R}^n$ 是你想投影的原始场景(比如一个3D模型)。
  4. 输出空间 $\mathbb{R}^m$ 是投影幕。
  5. 零空间:场景中所有那些恰好被投影到屏幕原点(光源点)上的点。例如,所有在穿过光源的直线上的点。
  6. :屏幕上所有被照亮的部分。
  7. 单射:投影过程没有“重叠”。如果3D模型中两个不同的点,在屏幕上投影到了同一个位置,那么就不是单射的。这发生的条件是,连接这两个点的向量零空间中。所以,要实现单射零空间里只能有零向量(即只有原点自己被投影到原点)。
  8. 满射:屏幕的每一个角落都被照亮了。如果屏幕比场景的投影范围大,有些地方是黑的,那就不是满射的。
💭 [直观想象]
  1. 公司部门的比喻
  2. 矩阵 $A$:一个公司的组织架构图,它将员工(输入向量)分配到不同的项目(输出向量)。
  3. 零空间:所有那些被分配了任务,但最终输出的成果为“零”(没有产出)的员工组合。这可以被看作是“内部消耗”或“冗余人员”。
  4. :这个公司所有可能完成的项目成果的集合。
  5. 单射:不存在“冗余”。没有两组不同的员工组合,能做出完全一样的工作成果。这要求“内部消耗”(零空间)为零。
  6. 满射:公司的能力覆盖了所有预期的业务领域。市场上任何一个项目需求(目标空间中的向量),公司内部都能找到一个员工组合(输入向量)去完成它。这要求公司的“产出范围”()足够大。
24.2. 可逆性与矩阵形状

📜 [原文20]

推论 4.3.2. 设 $F: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 是一个线性函数,对应于矩阵 $A$

(i) 如果 $F$单射,则 $n \leq m$。此外,$F$单射 $\Longleftrightarrow$ $F$ 有一个也是线性函数左逆

(ii) 如果 $F$满射,则 $n \geq m$。此外,$F$满射 $\Longleftrightarrow$ $F$ 有一个也是线性函数右逆

(iii) 如果 $n=m$,则 $F$单射 $\Longleftrightarrow F$满射 $\Longleftrightarrow F$双射,并且在这种情况下,逆函数 $F^{-1}$ 再次是线性的,因此对应于一个矩阵,记作 $A^{-1}$,具有以下性质

$$ A A^{-1}=A^{-1} A=I_{n} $$

对于 $A \in \mathbb{M}_{m, n}(\mathbb{R})$,我们可以用通常的方式定义左逆右逆。然后,使用上述 (iii),$A \in \mathbb{M}_{n}(\mathbb{R})$ 有一个左逆 $B \Longleftrightarrow A$ 有一个右逆 $C$,并且实际上 $B=C=A^{-1}$,通过通常的论证:

$$ B=B I_{n}=B(A C)=(B A) C=I_{n} C=C $$

📖 [逐步解释]

这部分内容从上一节单射满射的结论出发,推导了关于矩阵形状的限制,并引入了左逆右逆和最终的逆矩阵概念。

  1. 推论 (i):关于单射
    • 形状限制: 如果变换 $A: \mathbb{R}^n \to \mathbb{R}^m$单射的,那么输入空间的维数 $n$ 不能大于输出空间的维数 $m$ ($n \le m$)。
    • 原因: 单射等价于 $A$$n$ 个列向量(它们是 $\mathbb{R}^m$ 中的向量)是线性无关的。而在 $\mathbb{R}^m$ 空间中,线性无关向量个数最多不能超过 $m$(命题 4.1.3(i))。所以 $n \le m$
    • 直观: 你无法把一个高维空间(如3D)“无损地”塞进一个低维空间(如2D平面)里。必然会有重叠和信息丢失,因此不可能是单射
    • 左逆: 单射变换 $F$ 存在一个“左逆” (left inverse) 函数 $G: \mathbb{R}^m \to \mathbb{R}^n$,使得 $G \circ F$ 是恒等变换 ($G(F(\mathbf{x})) = \mathbf{x}$)。
    • 直观: $F$$\mathbb{R}^n$ “嵌入”到 $\mathbb{R}^m$ 中,形成一个 $n$ 维的子空间左逆 $G$ 的作用就是把这个子空间完美地“映射回”原来的 $\mathbb{R}^n$,而把子空间之外的所有东西都“压扁”到 $\mathbb{R}^n$ 中的某处。
  2. 推论 (ii):关于满射
    • 形状限制: 如果变换 $A: \mathbb{R}^n \to \mathbb{R}^m$满射的,那么输入空间的维数 $n$ 不能小于输出空间的维数 $m$ ($n \ge m$)。
    • 原因: 满射等价于 $A$$n$ 个列向量能够张成整个 $\mathbb{R}^m$ 空间。而要张成 $m$ 维空间,至少需要 $m$向量(命题 4.1.3(ii))。所以 $n \ge m$
    • 直观: 你无法用一个低维空间(如2D平面)去“填满”一个高维空间(如3D)。你最多只能填满其中的一部分。
    • 右逆: 满射变换 $F$ 存在一个“右逆” (right inverse) 函数 $H: \mathbb{R}^m \to \mathbb{R}^n$,使得 $F \circ H$ 是恒等变换 ($F(H(\mathbf{y})) = \mathbf{y}$)。
    • 直观: 对于目标空间 $\mathbb{R}^m$ 中的任何一个点 $\mathbf{y}$,因为是满射,所以它在输入空间中至少有一个“原像”。右逆 $H$ 的作用就是为每一个 $\mathbf{y}$ “指定”一个确定的原像。这种指定可能不唯一。
  3. 推论 (iii):关于双射 (方阵的情况)
    • 核心结论: 当输入和输出空间维数相同时,即 $n=m$(对应于方阵),单射满射这两个性质是等价的!
    • 原因: 对于 $n \times n$ 矩阵 $A$,它的 $n$ 个列向量$\mathbb{R}^n$ 中的 $n$向量。根据命题 4.1.3(iv),对于 $n$ 个在 $n$ 维空间中的向量,“线性无关”(对应单射)和“张成整个空间”(对应满射)是等价的。
    • 双射 (Bijective):一个函数既是单射又是满射,就称为双射。对于方阵来说,只要满足单射满射之一,它就自动是双射
    • 逆函数/逆矩阵: 一个双射函数存在一个唯一的逆函数 $F^{-1}$。对于线性变换,它的逆函数 $F^{-1}$ 也必然是线性的。因此,$F^{-1}$ 也可以用一个矩阵来表示,记作 $A^{-1}$
    • $A^{-1}$ 满足 $A A^{-1} = I_n$ (因为 $F \circ F^{-1} = \operatorname{Id}$) 和 $A^{-1} A = I_n$ (因为 $F^{-1} \circ F = \operatorname{Id}$)。
  4. 方阵的左逆与右逆
    • 作者最后做了一个总结。对于一个方阵 $A \in \mathbb{M}_n(\mathbb{R})$
    • 如果它有一个左逆 $B$ (使得 $BA=I_n$),那么 $A$ 必然是单射的,因此是双射的,所以它也必然有一个右逆
    • 如果它有一个右逆 $C$ (使得 $AC=I_n$),那么 $A$ 必然是满射的,因此是双射的,所以它也必然有一个左逆
    • 更重要的是,它的左逆右逆必然是同一个矩阵,也就是它的逆矩阵 $A^{-1}$
    • 证明: $B = B I_n = B(AC) = (BA)C = I_n C = C$。这个经典的代数证明利用了结合律,展示了只要同时存在左逆右逆,它们就必然相等。
∑ [公式拆解]

公式1:

$$ A A^{-1}=A^{-1} A=I_{n} $$

  • 这是逆矩阵 $A^{-1}$ 的定义。它是一个矩阵,当它与原矩阵 $A$ 从左边或右边相乘时,结果都是单位矩阵 $I_n$
  • 这个性质只有方阵才可能拥有。

公式2:

$$ B=B I_{n}=B(A C)=(B A) C=I_{n} C=C $$

  • 这是一个证明左逆等于右逆的经典推导。
  • B = BI: 任何矩阵乘以单位矩阵不变。
  • B(AC): 将 $I$ 替换为 $AC$ (因为 $C$右逆)。
  • (BA)C: 利用矩阵乘法结合律
  • IC: 将 $BA$ 替换为 $I$ (因为 $B$左逆)。
  • C: 单位矩阵乘以任何矩阵不变。
  • 整个推导链从 $B$ 开始,到 $C$ 结束,证明了 $B=C$
💡 [数值示例]
  • 示例 1 (单射,非满射)$A = \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{pmatrix}$ ($3 \times 2$)。$n=2, m=3$$n < m$
  • $A$ 的列是 $\mathbf{e}_1, \mathbf{e}_2$ in $\mathbb{R}^3$,它们是线性无关的,所以 $A$单射的。
  • $A$ 有一个左逆,例如 $B = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \end{pmatrix}$
  • $BA = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} = I_2$
  • 示例 2 (满射,非单射)$A = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \end{pmatrix}$ ($2 \times 3$)。$n=3, m=2$$n > m$
  • $A$ 的列是 $\mathbb{R}^2$ 中的 $\mathbf{e}_1, \mathbf{e}_2, \mathbf{0}$,它们可以张成整个 $\mathbb{R}^2$,所以 $A$满射的。
  • $A$ 有一个右逆,例如 $C = \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{pmatrix}$
  • $AC = \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} = I_2$
  • 示例 3 (双射)$A = \begin{pmatrix} 1 & 2 \\ 0 & 1 \end{pmatrix}$ ($2 \times 2$ 方阵)。
  • 向量 $(1,0)$$(2,1)$线性无关的。因为 $n=m=2$,所以 $A$单射的,也自动是满射的,因此是双射可逆的。
  • 它的逆矩阵$A^{-1} = \begin{pmatrix} 1 & -2 \\ 0 & 1 \end{pmatrix}$
  • 验证:

$AA^{-1} = \begin{pmatrix} 1 & 2 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} 1 & -2 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1\cdot1+2\cdot0 & 1(-2)+2\cdot1 \\ 0\cdot1+1\cdot0 & 0(-2)+1\cdot1 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} = I_2$

$A^{-1}A = \begin{pmatrix} 1 & -2 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} 1 & 2 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1\cdot1+(-2)\cdot0 & 1\cdot2+(-2)\cdot1 \\ 0\cdot1+1\cdot0 & 0\cdot2+1\cdot1 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} = I_2$

⚠️ [易错点]
  1. 非方阵的逆:非方阵不可能有“逆矩阵”,因为它不可能同时是单射满射的。但它们可能有左逆右逆(而且通常不唯一)。“”这个词在线性代数中必须小心使用。
  2. 方阵的可逆性:对于方阵单射满射双射、存在左逆、存在右逆、存在,这些概念全都等价。这是方阵非常优美的性质。
  3. 零矩阵零矩阵(无论是方的还是长的)没有左逆右逆(除非在 $0 \times 0$ 这种平凡情况下)。
📝 [总结]

本段阐明了线性变换单射/满射性质与其对应矩阵形状 ($m \times n$) 之间的关系。单射要求 $n \le m$满射要求 $n \ge m$。一个线性变换可逆的,当且仅当它是双射的,这要求 $n=m$,即其矩阵必须是方阵。对于方阵$A$ 可逆与其对应变换 $F$双射等价,且其逆矩阵 $A^{-1}$ 代表了逆函数 $F^{-1}$,满足 $AA^{-1}=A^{-1}A=I$。对于方阵来说,左逆右逆的概念合并了,只要存在一个,就都存在且相等,即为逆矩阵

🎯 [存在目的]

本段的目的是正式引入和定义逆矩阵

  1. 建立可逆性的条件:通过连接单射满射,明确了只有方阵才可能是“真正”可逆的。
  2. 定义逆矩阵:给出了逆矩阵 $A^{-1}$ 的代数定义 $AA^{-1}=A^{-1}A=I$
  3. 统一函数与矩阵的逆:将函数可逆性双射)与矩阵可逆性(存在一个乘积为单位阵的矩阵)等同起来。这使得我们可以通过代数计算(例如,高斯-若尔当消元法求,或计算行列式)来判断一个线性变换是否可逆
🧠 [直觉心智模型]
  1. 信息流的比喻
  2. 变换 $A: \mathbb{R}^n \to \mathbb{R}^m$ 是一个信息处理通道,输入是 $n$ 个数字,输出是 $m$ 个数字。
  3. 单射 ($n \le m$):信息无损压缩或扩展。就像把一个 1MB 的文件无损压缩成 0.8MB,或者无损地嵌入到一个 2MB 的文件中。信息是可恢复的(存在左逆)。
  4. 满射 ($n \ge m$):用更多的信息去生成更少的信息。就像把一个 3D 模型的详细数据渲染成一张 2D 图片。你覆盖了整个屏幕(满射),但信息是有损的。但你可以定义一个右逆,比如对于屏幕上的每个像素,都“武断地”指定一个原始的3D点作为它的来源。
  5. 双射/可逆 ($n=m$):信息通道是无损且无冗余的。就像一个完美的加密和解密过程。$A$ 是加密, $A^{-1}$ 是解密。$A^{-1}(A(\text{明文}))=\text{明文}$$A(A^{-1}(\text{密文}))=\text{密文}$
💭 [直观想象]
  1. 人员匹配
  2. $n$ 个男生和 $m$ 个女生参加一个配对舞会。一个变换 $A$ 是一种配对规则。
  3. 单射:每个参与的男生都必须配对到 不同 的女生。这要求女生人数不能少于男生人数 ($m \ge n$)。
  4. 满射:每个女生都必须有舞伴。这要求男生人数不能少于女生人数 ($n \ge m$)。
  5. 双射/可逆:完美匹配!每个男生都恰好配对一个女生,每个女生也恰好配对一个男生。这要求男女生人数必须相等 ($n=m$)。这种情况下,存在一个逆变换 $A^{-1}$,可以根据任何一个女生,准确地找到她的舞伴。
34.3. 可逆矩阵的定义与性质

📜 [原文21]

定义 4.3.3. 矩阵 $A \in \mathbb{M}_{n}(\mathbb{R})$可逆的,如果逆矩阵 $A^{-1}$ 存在。定义一般线性群 $G L_{n}(\mathbb{R})$$\mathbb{M}_{n}(\mathbb{R})$ 中由可逆矩阵组成的子集。

以下是一个简单的计算:

命题 4.3.4. (i) 如果 $A, B \in G L_{n}(\mathbb{R})$,则 $AB$可逆的,并且实际上 $(A B)^{-1}= B^{-1} A^{-1}$。因此 $G L_{n}(\mathbb{R})$矩阵乘积下是封闭的。

(ii) $I_{n} \in G L_{n}(\mathbb{R})$,并且实际上 $I_{n}^{-1}=I_{n}$

(iii) 如果 $A \in G L_{n}(\mathbb{R})$,则 $A^{-1} \in G L_{n}(\mathbb{R})$,并且实际上 $\left(A^{-1}\right)^{-1}=A$

📖 [逐步解释]

这部分内容正式定义了可逆矩阵一般线性群,并阐述了可逆矩阵矩阵乘法下构成的结构。

  1. 定义 4.3.3:可逆矩阵与一般线性群
    • 可逆矩阵 (Invertible Matrix):一个方阵 $A$ 被称为是可逆的,如果存在一个矩阵 $A^{-1}$ 满足 $AA^{-1}=A^{-1}A=I$。这个 $A^{-1}$ 就是它的逆矩阵
    • 一般线性群 (General Linear Group)
    • 所有 $n \times n$可逆实数矩阵的集合,被赋予一个特殊的名字,叫做一般线性群,记作 $GL_n(\mathbb{R})$
    • “General (一般)”是因为它包含了所有可逆线性变换
    • “Linear (线性)”是因为它的元素代表了线性变换
    • “Group (群)”是因为这个集合在矩阵乘法这个运算下,满足的公理。这正是下一个命题要阐述的。
    • $GL_n(\mathbb{R})$群论中一个极其重要的例子,代表了 $n$向量空间的“对称性”。
  2. 命题 4.3.4:$GL_n(\mathbb{R})$ 的群结构
    • 这个命题实际上是在验证 $GL_n(\mathbb{R})$ 满足的三个基本公理。
    • (i) 封闭性 (Closure) 与 逆的性质
    • 内容: 如果 $A$$B$ 都是可逆$n \times n$ 矩阵,那么它们的乘积 $AB$ 也一定是可逆的。
    • 逆的公式: 并且,乘积的等于的“反序”乘积:$(AB)^{-1} = B^{-1}A^{-1}$。这个公式必须牢记,顺序非常重要。
    • 证明: 我们需要验证 $B^{-1}A^{-1}$ 是不是 $AB$。我们来计算乘积:
    • 右乘: $(AB)(B^{-1}A^{-1}) = A(BB^{-1})A^{-1} = A(I)A^{-1} = AA^{-1} = I$
    • 左乘: $(B^{-1}A^{-1})(AB) = B^{-1}(A^{-1}A)B = B^{-1}(I)B = B^{-1}B = I$
    • 既然从左、右两边乘都得到单位矩阵,那么根据逆矩阵的定义,$B^{-1}A^{-1}$ 确实是 $AB$
    • “穿脱袜子”的比喻:这就像穿鞋袜,先穿袜子 ($B$) 再穿鞋 ($A$)。脱的时候要反过来,先脱鞋 ($A^{-1}$) 再脱袜子 ($B^{-1}$)。
    • (ii) 单位元 (Identity Element)
    • 内容: 单位矩阵 $I_n$ 本身是可逆的,并且它的就是它自己。
    • 证明: $I_n \cdot I_n = I_n$,这完美符合的定义。
    • 因此,单位矩阵一般线性群 $GL_n(\mathbb{R})$单位元
    • (iii) 逆元 (Inverse Element)
    • 内容: 如果矩阵 $A$可逆的,那么它的逆矩阵 $A^{-1}$ 也一定是可逆的。并且,“”就是原来的矩阵 $A$$(A^{-1})^{-1}=A$
    • 证明: 根据逆矩阵的定义,我们有 $A^{-1}A = I_n$$AA^{-1}=I_n$。如果把 $A^{-1}$ 看作主角,那么 $A$ 这个矩阵,当它从右边或左边乘以 $A^{-1}$ 时,结果都是单位矩阵。这恰好说明 $A$ 就是 $A^{-1}$逆矩阵
💡 [数值示例]

$A = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix}, B = \begin{pmatrix} 2 & 0 \\ 0 & 1 \end{pmatrix}$

  • $A^{-1} = \begin{pmatrix} 1 & -1 \\ 0 & 1 \end{pmatrix}$
  • $B^{-1} = \begin{pmatrix} 1/2 & 0 \\ 0 & 1 \end{pmatrix}$
  • $A, B$ 都是可逆的,所以它们都在 $GL_2(\mathbb{R})$ 中。

示例 1:验证封闭性与逆的公式

  • 计算 $AB$:

$AB = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} 2 & 0 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 2 & 1 \\ 0 & 1 \end{pmatrix}$

  • 计算 $(AB)^{-1}$ (使用 $2 \times 2$ 逆矩阵公式 $\frac{1}{ad-bc}\begin{smallmatrix}d & -b \\ -c & a\end{smallmatrix}$):

$(AB)^{-1} = \frac{1}{2\cdot1 - 1\cdot0} \begin{pmatrix} 1 & -1 \\ 0 & 2 \end{pmatrix} = \frac{1}{2} \begin{pmatrix} 1 & -1 \\ 0 & 2 \end{pmatrix} = \begin{pmatrix} 1/2 & -1/2 \\ 0 & 1 \end{pmatrix}$

  • 计算 $B^{-1}A^{-1}$:

$B^{-1}A^{-1} = \begin{pmatrix} 1/2 & 0 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} 1 & -1 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1/2 \cdot 1 + 0 \cdot 0 & 1/2 \cdot (-1) + 0 \cdot 1 \\ 0 \cdot 1 + 1 \cdot 0 & 0 \cdot (-1) + 1 \cdot 1 \end{pmatrix} = \begin{pmatrix} 1/2 & -1/2 \\ 0 & 1 \end{pmatrix}$

  • 两者相等,验证了 $(AB)^{-1} = B^{-1}A^{-1}$
⚠️ [易错点]
  1. 群的运算$GL_n(\mathbb{R})$ 这个的运算是矩阵乘法,不是矩阵加法可逆矩阵的集合对于矩阵加法是不封闭的。例如 $I$$-I$ 都在 $GL_n(\mathbb{R})$ 中,但它们的和是零矩阵,不可逆。
  2. 逆的顺序$(AB)^{-1} = B^{-1}A^{-1}$ 这个反序的规则是初学者最容易出错的地方之一,必须强制记忆。
  3. 非方阵一般线性群的定义只针对方阵
📝 [总结]

本段正式定义了可逆矩阵(必须是方阵,且存在一个乘积为单位阵的逆矩阵),以及由所有 $n \times n$ 可逆矩阵构成的一般线性群 $GL_n(\mathbb{R})$。命题 4.3.4 系统地证明了 $GL_n(\mathbb{R})$矩阵乘法下确实构成一个,因为它满足封闭性(乘积仍可逆)、存在单位元(单位矩阵)和每个元素都存在逆元(逆的逆是自身)。

🎯 [存在目的]

本段的目的是将可逆矩阵从一个孤立的概念,提升到群论这个更广阔的代数结构中来审视。

  1. 引入核心代数结构现代代数的入门砖和核心研究对象。$GL_n(\mathbb{R})$李群 (Lie Group) 中最经典的例子之一,它既有的代数结构,又有流形的几何结构,在物理学(如描述对称性)和几何学中有至关重要的作用。
  2. 揭示可逆变换的对称性:将所有可逆线性变换看作一个整体,这个整体具有优美的结构。这意味着我们可以对可逆变换进行“复合”和“撤销”操作,并且总能停留在“可逆”这个世界里。这代表了向量空间的“自同构” (automorphism),即所有保持结构不变的自身到自身的映射。
  3. 为后续概念铺路:许多重要的子群,如特殊线性群 $SL_n$ (行列式为1)、正交群 $O_n$ (保持长度) 都是在 $GL_n$ 内部定义的。理解 $GL_n$ 是理解它们的基础。
🧠 [直觉心智模型]
  1. 魔方操作的集合
  2. 一个 $n \times n$ 可逆矩阵可以看作是对魔方的一次“操作”(比如旋转某一面)。
  3. 一般线性群 $GL_n(\mathbb{R})$ 就是所有可能的操作的集合。
  4. (i) 封闭性: 你对魔方做一次操作 $B$,再做一次操作 $A$,其效果等同于某一次“复合操作” $AB$。这个复合操作本身也是可撤销的。撤销它的方法 $(AB)^{-1}$ 是先撤销操作 $A$ (做 $A^{-1}$),再撤销操作 $B$ (做 $B^{-1}$),即 $B^{-1}A^{-1}$
  5. (ii) 单位元: “什么都不做” ($I_n$) 也是一个操作,它在集合里。
  6. (iii) 逆元: 任何一个操作 $A$(比如顺时针转R面),都有一个对应的“反向操作” $A^{-1}$(逆时针转R面),可以把魔方恢复原状。
💭 [直观想象]
  1. 所有“不把空间压扁”的变换
  2. 一个 $n \times n$ 矩阵是对 $n$ 维空间的一次变换。
  3. 可逆矩阵代表的是所有那些“信息无损”的变换。它们可能会拉伸、旋转、剪切空间,但绝不会把整个空间“压扁”成一个更低维的子空间(比如把3D空间压成一个平面)。
  4. 一般线性群 $GL_n(\mathbb{R})$ 就是所有这些“保全维度”的变换的集合。
  5. (i) 封闭性: 做一次保全维度的变换,再做一次,结果仍然是保全维度的。
  6. (ii) 单位元: “保持不动”是一种保全维度的变换。
  7. (iii) 逆元: 任何一次保全维度的变换,都可以被“撤销”,恢复到原来的状态。
44.4. 行列式

📜 [原文22]

判断给定 $n \times n$ 矩阵 $A$ 是否可逆的问题可以通过行列式来回答。回想一下,对于每个 $n$,我们都有一个函数 $\det: \mathbb{M}_{n}(\mathbb{R}) \rightarrow \mathbb{R}$,具有以下性质:

(1) 对于所有 $A, B \in \mathbb{M}_{n}(\mathbb{R})$$\operatorname{det}(A B)=(\operatorname{det} A)(\operatorname{det} B)$

(2) $\operatorname{det} I_{n}=1$

(3) $A$可逆$\Longleftrightarrow \operatorname{det} A \neq 0$。因此 $G L_{n}(\mathbb{R})=\left\{A \in \mathbb{M}_{n}(\mathbb{R}): \operatorname{det} A \neq 0\right\}$。如果 $A$可逆的,那么

$$ \operatorname{det}\left(A^{-1}\right)=(\operatorname{det} A)^{-1} $$

例 4.3.5. 对于 $2 \times 2$ 矩阵 $A=\left(\begin{array}{ll}a & b \\ c & d\end{array}\right)$,我们有

$$ \operatorname{det} A=a d-b c $$

如果 $\det A \neq 0$,那么计算得到:

$$ A^{-1}=\frac{1}{a d-b c}\left(\begin{array}{cc} d & -b \\ -c & a \end{array}\right) $$

除了上面列出的性质 (1)-(3) 之外,还有两个重要的额外性质:行列式$A$ 的列的多线性函数,换句话说,当其余列保持不变时,它在每列中都是线性函数;并且行列式$A$ 的列的交错函数,换句话说,如果我们通过交换两列 $\mathbf{c}_{i}$$\mathbf{c}_{j}$$A$ 变为另一个 $n \times n$ 矩阵 $A^{\prime}$,那么 $\det A^{\prime}=-\det A$。实际上,这些性质加上上面的 (2) 就足以刻画行列式

📖 [逐步解释]

这部分内容回顾了行列式 (determinant) 的概念,它是一个从方阵标量的函数,并作为判断矩阵是否可逆的强大工具。

  1. 行列式的作用
    • 开篇点明主旨:行列式是回答“一个方阵是否可逆”这个问题的关键。
  2. 行列式的核心性质 (公理化定义)
    • 作者没有给出行列式的复杂计算公式(比如代数余子式展开),而是通过它满足的几个核心性质来“定义”它。这是一种更现代、更抽象的数学思想。
    • 性质(1):乘法性质
    • $\det(AB) = (\det A)(\det B)$
    • 两个矩阵乘积的行列式,等于它们各自行列式的乘积。这个性质非常强大,说明行列式是一个从一般线性群实数乘法群的“群同态”。
    • 性质(2):单位矩阵的行列式
    • $\det(I_n) = 1$
    • 这为行列式的计算提供了一个基准。
    • 性质(3):与可逆性的关系
    • $A$ 可逆 $\iff \det A \neq 0$
    • 这是行列式最重要的应用。它给了我们一个直接的计算判据。
    • 这个性质也让我们对一般线性群有了新的描述:$GL_n(\mathbb{R})$ 就是所有行列式不为零的 $n \times n$ 实数矩阵的集合。
    • 推论:逆矩阵的行列式
    • 如果 $A$ 可逆,那么 $A A^{-1} = I_n$
    • 两边取行列式$\det(A A^{-1}) = \det(I_n)$
    • 利用性质(1)和(2):$(\det A)(\det A^{-1}) = 1$
    • 因此,$\det(A^{-1}) = 1 / (\det A) = (\det A)^{-1}$逆矩阵行列式是原矩阵行列式的倒数。
  3. $2 \times 2$ 矩阵的例子
    • 对于最简单的方阵 $A=\begin{pmatrix}a&b\\c&d\end{pmatrix}$,作者给出了具体的行列式逆矩阵公式。
    • $\det A = ad - bc$。这个值是判断可逆性的关键。
    • 如果 $ad-bc \neq 0$,那么逆矩阵存在,并且可以通过一个简单的公式计算出来:将主对角线元素 ($a,d$) 交换位置,副对角线元素 ($b,c$) 变号,然后整体除以行列式的值。
  4. 行列式的额外性质 (从几何角度)
    • 作者补充了两个从几何角度看更基本的性质,它们与性质(2)一起,可以作为行列式的另一种公理化定义。
    • 多线性 (Multilinear)行列式被看作是关于其列向量的一个函数 $\det(\mathbf{c}_1, \ldots, \mathbf{c}_n)$多线性意味着,如果你固定其他 $n-1$ 个列向量不变,只在一个列向量上做线性运算,那么行列式的值也会相应地做线性运算。
    • $\det(\ldots, t\mathbf{c}_i, \ldots) = t \det(\ldots, \mathbf{c}_i, \ldots)$
    • $\det(\ldots, \mathbf{c}_i+\mathbf{c}_i', \ldots) = \det(\ldots, \mathbf{c}_i, \ldots) + \det(\ldots, \mathbf{c}_i', \ldots)$
    • 交错性 (Alternating):如果交换矩阵的任意两列,行列式的值会变号。
    • $\det(\ldots, \mathbf{c}_j, \ldots, \mathbf{c}_i, \ldots) = -\det(\ldots, \mathbf{c}_i, \ldots, \mathbf{c}_j, \ldots)$
    • 一个直接的推论是:如果一个矩阵有两列完全相同,那么它的行列式必然为0(因为交换这两列,矩阵不变,但行列式应该变号,唯一满足 $x=-x$ 的数是 $x=0$)。这与“矩阵的列线性相关行列式为0”的结论是一致的。
∑ [公式拆解]

公式1:

$$ \operatorname{det}\left(A^{-1}\right)=(\operatorname{det} A)^{-1} $$

  • 推导已在上面给出。这是行列式乘法性质和逆矩阵定义的直接结果。

公式2:

$$ \operatorname{det} A=a d-b c $$

  • 这是 $2 \times 2$ 矩阵 $\begin{pmatrix}a&b\\c&d\end{pmatrix}$ 行列式的定义公式。

公式3:

$$ A^{-1}=\frac{1}{a d-b c}\left(\begin{array}{cc} d & -b \\ -c & a \end{array}\right) $$

  • 这是 $2 \times 2$ 可逆矩阵逆矩阵公式。其中 $\begin{pmatrix}d&-b\\-c&a\end{pmatrix}$ 称为 $A$伴随矩阵 (Adjugate matrix) 的一种形式(对于$2 \times 2$情况)。
💡 [数值示例]
  • 示例 1$A = \begin{pmatrix} 3 & 1 \\ 4 & 2 \end{pmatrix}$
  • $\det A = 3 \cdot 2 - 1 \cdot 4 = 6 - 4 = 2$
  • 因为 $\det A = 2 \neq 0$,所以 $A$可逆的。
  • $A^{-1} = \frac{1}{2} \begin{pmatrix} 2 & -1 \\ -4 & 3 \end{pmatrix} = \begin{pmatrix} 1 & -1/2 \\ -2 & 3/2 \end{pmatrix}$
  • $\det(A^{-1}) = 1 \cdot (3/2) - (-1/2) \cdot (-2) = 3/2 - 1 = 1/2$
  • 这与 $(\det A)^{-1} = 1/2$ 相符。
  • 示例 2$B = \begin{pmatrix} 1 & 2 \\ 2 & 4 \end{pmatrix}$
  • $\det B = 1 \cdot 4 - 2 \cdot 2 = 4 - 4 = 0$
  • 因为 $\det B = 0$,所以 $B$不可逆的(奇异矩阵)。
  • 注意 $B$ 的第二列是第一列的2倍,列是线性相关的,这也与 $\det B = 0$ 的结论一致。
⚠️ [易错点]
  1. 行列式不是线性函数:虽然行列式对每一列是线性的(多线性),但它作为一个从矩阵空间实数的函数,不是 线性的。即 $\det(A+B) \neq \det A + \det B$$\det(tA) \neq t \det A$(实际上 $\det(tA) = t^n \det A$)。
  2. 计算公式$ad-bc$ 只适用于 $2 \times 2$ 矩阵。对于 $3 \times 3$ 及更高阶的矩阵行列式的计算要复杂得多(如拉普拉斯展开或利用行变换)。
  3. 行列式 vs 矩阵行列式是一个,它描述了矩阵的某个性质。矩阵是一个数字阵列,代表一个线性变换。两者不能混淆。
📝 [总结]

本段将行列式定义为一个从方阵标量的函数,其核心价值在于它提供了一个简单的判据来确定矩阵是否可逆行列式非零。文章通过其关键的代数性质(乘法性)和几何性质(对列是多线性交错的)来刻画它,并给出了 $2 \times 2$ 矩阵的实用计算公式。

🎯 [存在目的]

引入行列式的目的在于:

  1. 提供可逆性的判据:这是其最直接、最重要的应用。相比于去解方程 $A\mathbf{x}=\mathbf{0}$ 或者尝试去求逆矩阵,直接计算一个数(行列式)来判断可逆性要方便得多。
  2. 提供几何信息行列式的绝对值 $|\det A|$ 描述了线性变换 $A$ 对“体积”的缩放效应。一个由标准基向量构成的单位体积(在2D是面积,3D是体积),经过变换 $A$ 后,其新的体积就是 $|\det A|$。如果 $\det A=0$,意味着变换将空间“压扁”到了一个更低的维度,体积变为0,信息丢失,故不可逆行列式的符号则表示变换是否改变了空间的“定向”(如把一个右手坐标系变成了左手坐标系)。
  3. 求解线性方程组(克拉默法则):虽然在计算上效率不高,但行列式在理论上提供了一个求解线性方程组的公式,即克拉默法则。
  4. 计算特征值:在寻找矩阵特征值时,核心步骤就是解特征方程 $\det(A-\lambda I)=0$,这完全依赖于行列式
🧠 [直觉心智模型]
  1. 体积缩放因子
  2. 矩阵 $A$ 是一个空间变换操作。
  3. 行列式 $\det A$ 是这个操作对“体积”的影响因子。
  4. 例 1:如果 $\det A = 2$,说明这个变换把空间中任何一个区域的体积都拉伸为原来的2倍。
  5. 例 2:如果 $\det A = -1$,说明这个变换保持体积不变,但做了一次“镜像”反射,把空间的“手性”反过来了。
  6. 例 3:如果 $\det A = 0$,说明这个变换把空间“压扁”了,一个3D物体被拍成了一张2D照片,体积变为0。被压扁的东西无法复原,所以变换不可逆
💭 [直观想象]
  1. 一个柠檬榨汁机
  2. 一个柠檬(单位体积)是一个向量集合。
  3. 矩阵 $A$ 是榨汁机。
  4. $\det A$ 是这台榨汁机的“出汁率”。
  5. 如果 $\det A > 0$,这是一台“膨化机”,它把柠檬变成了更大的柠檬(体积变大)。
  6. 如果 $\det A = 1$,这是一台“完美的转移机器”,柠檬进去还是同样大的柠檬出来。
  7. 如果 $0 < \det A < 1$,这是一台普通的榨汁机,柠檬进去,柠檬汁出来(体积变小)。
  8. 如果 $\det A = 0$,这是一台“终极压榨机”,柠檬进去,什么都没了(或者说变成了一张厚度为0的皮),体积为0。被这样压榨过的柠檬无法复原,所以操作不可逆
  9. 如果 $\det A < 0$,这是一台“镜像榨汁机”,出来的柠檬汁是“镜中像”,手性相反。
54.5. 特殊线性群

📜 [原文23]

定义 4.3.6. 特殊线性群 $S L_{n}(\mathbb{R})$ 由下式给出

$$ S L_{n}(\mathbb{R})=\left\{A \in \mathbb{M}_{n}(\mathbb{R}): \operatorname{det} A=1\right\} $$

以下是上述性质的一个简单推论:

命题 4.3.7. $S L_{n}(\mathbb{R}) \subseteq G L_{n}(\mathbb{R})$。此外,

(i) 如果 $A, B \in S L_{n}(\mathbb{R})$,则 $A B \in S L_{n}(\mathbb{R})$,即 $S L_{n}(\mathbb{R})$ 在乘法下是封闭的。

(ii) $I_{n} \in S L_{n}(\mathbb{R})$

(iii) 如果 $A \in S L_{n}(\mathbb{R})$,则 $A$可逆的,并且 $A^{-1} \in S L_{n}(\mathbb{R})$

📖 [逐步解释]

这部分内容在一般线性群 $GL_n(\mathbb{R})$ 的基础上,定义了一个更“特殊”也同样重要的子群——特殊线性群 $SL_n(\mathbb{R})$

  1. 定义 4.3.6:特殊线性群的定义
    • 特殊线性群 $SL_n(\mathbb{R})$ 是所有行列式 恰好等于1$n \times n$ 实数矩阵的集合。
    • “Special (特殊)”这个词就是特指“行列式为1”这个条件。
    • 几何意义:行列式代表了线性变换对体积的缩放因子。行列式为1意味着这种变换是“保体积”的。它可能会拉伸、旋转、剪切空间,但任何区域变换前后的体积都保持不变。
  2. 命题 4.3.7:$SL_n(\mathbb{R})$ 的群结构
    • 这个命题说明了 $SL_n(\mathbb{R})$ 不仅仅是 $GL_n(\mathbb{R})$ 的一个子集,它还是一个子群 (subgroup)。这意味着它自身在继承自 $GL_n$ 的运算(矩阵乘法)下也构成一个
    • $SL_n(\mathbb{R}) \subseteq GL_n(\mathbb{R})$
    • 这是一个直接的推论。$SL_n$ 的元素行列式都为1。因为 $1 \neq 0$,所以根据可逆性的判据,所有 $SL_n$ 中的矩阵都是可逆的。因此,$SL_n$$GL_n$ 的一个子集
    • (i) 封闭性
    • 内容: 两个行列式为1的矩阵 $A, B$ 相乘,其结果 $AB$行列式也为1。
    • 证明: $\det(AB) = (\det A)(\det B) = 1 \cdot 1 = 1$。这直接利用了行列式的乘法性质。
    • (ii) 单位元
    • 内容: 单位矩阵 $I_n$ 属于 $SL_n(\mathbb{R})$
    • 证明: $\det(I_n) = 1$,这符合 $SL_n$ 的定义。
    • (iii) 逆元
    • 内容: 如果一个矩阵 $A$行列式为1,那么它的逆矩阵 $A^{-1}$行列式也为1。
    • 证明: $\det(A^{-1}) = (\det A)^{-1} = 1^{-1} = 1$
    • 这三条性质(封闭性、单位元、逆元)证明了 $SL_n(\mathbb{R})$ 确实是 $GL_n(\mathbb{R})$ 的一个子群
∑ [公式拆解]

公式:

$$ S L_{n}(\mathbb{R})=\left\{A \in \mathbb{M}_{n}(\mathbb{R}): \operatorname{det} A=1\right\} $$

  • $SL_n(\mathbb{R})$: n阶实特殊线性群的符号。
  • $\{ A \in \mathbb{M}_n(\mathbb{R}) : \ldots \}$: 表示这是一个由 $n \times n$ 实数矩阵构成的集合,这些矩阵需要满足冒号后面的条件。
  • $\det A = 1$: 这就是成为 $SL_n$ 成员的唯一条件。
💡 [数值示例]

$SL_2(\mathbb{R})$ 中。

  • 示例 1:剪切变换

$A = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix}$。这是一个“水平剪切”矩阵

$\det A = 1 \cdot 1 - 1 \cdot 0 = 1$。所以 $A \in SL_2(\mathbb{R})$

几何上,它将正方形变成一个平行四边形,但底和高都不变,所以面积不变。

  • 示例 2:旋转变换

$B = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}$。这是一个旋转矩阵

$\det B = \cos\theta \cdot \cos\theta - (-\sin\theta) \cdot \sin\theta = \cos^2\theta + \sin^2\theta = 1$

所以任何旋转矩阵都在 $SL_2(\mathbb{R})$ 中。这很直观,旋转不会改变图形的面积。

  • 示例 3:群性质

$A = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix} \in SL_2(\mathbb{R})$。它的 $A^{-1} = \begin{pmatrix} 1 & -1 \\ 0 & 1 \end{pmatrix}$

$\det(A^{-1}) = 1 \cdot 1 - (-1) \cdot 0 = 1$也确实在 $SL_2(\mathbb{R})$ 中。

⚠️ [易错点]
  1. 保体积不等于保长度$SL_n$ 中的变换是保体积的,但通常不保持向量长度向量之间的角度。例如,上面例子中的剪切变换 $A$,它将向量 $(0,1)$ 变换为 $(1,1)$长度从1变为了 $\sqrt{2}$。保持长度角度的是后面要讲的正交群 $O_n$
  2. 行列式为-1的矩阵:那些行列式为-1的矩阵也是保体积的(只是反转了定向),但它们 属于 $SL_n(\mathbb{R})$,它们与 $SL_n$ 一起构成了另一个重要的集合。
📝 [总结]

本段定义了特殊线性群 $SL_n(\mathbb{R})$,它由所有行列式为1的 $n \times n$ 矩阵构成。从几何上看,它们代表了所有保持体积和定向的线性变换。通过简单的推导,证明了 $SL_n(\mathbb{R})$矩阵乘法下满足封闭性、有单位元、有逆元,因此它构成了一般线性群 $GL_n(\mathbb{R})$ 的一个子群

🎯 [存在目的]

引入 $SL_n(\mathbb{R})$ 的目的在于:

  1. 研究更精细的结构$GL_n$ 包含了所有可逆变换,而 $SL_n$ 则从中分离出了“保体积”这一类具有良好几何性质的变换,使得我们可以更深入地研究它们的结构。
  2. 提供重要的群论例子$SL_n(\mathbb{R})$ 是另一个核心的李群例子。在数学和物理中,许多对称性都与保体积变换有关。例如,在经典力学的哈密顿体系中,相空间的演化就是由 $SL_{2n}$ 中的元素描述的(刘维尔定理)。
  3. 连接到其他群$SL_n$ 是研究其他矩阵群的起点。例如,特殊正交群 $SO_n$(旋转群)就是 $SL_n$正交群 $O_n$ 的交集。
🧠 [直觉心智模型]
  1. 流体动力学的比喻
  2. 想象空间中充满了不可压缩的流体(像水一样)。
  3. 一个线性变换是对流体的一次“搅动”。
  4. $SL_n(\mathbb{R})$ 中的变换,代表了所有可能的“搅动”方式,这些搅动可能会让一块方的水变成菱形,但水的体积始终不变。
  5. $GL_n(\mathbb{R})$ 中但不在 $SL_n(\mathbb{R})$ 中的变换,则代表了搅动的同时还带“压缩”或“膨胀”效应,这在不可压缩流体中是不允许的。
  6. 结构意味着:你进行一次保体积的搅动,再进行一次,总体效果仍然是保体积的。
💭 [直观想象]
  1. 揉面团
  2. 一个面团代表空间中的一个单位体积。
  3. $SL_n(\mathbb{R})$ 中的变换就像是揉面团的各种手法:你可以把它搓长、压扁、扭曲,但面团的总质量(体积)是不变的。
  4. 封闭性:你先用“压扁”手法,再用“拉长”手法,整个过程面团质量始终不变。
  5. 单位元:有一种手法是“完全不动”,这当然保质量。
  6. 逆元:任何一种揉面手法,理论上都有一种“反向”的手法,可以把面团恢复到原来的形状。这个反向手法的过程也是保质量的。

5. 正交矩阵

15.1. 转置矩阵

📜 [原文24]

首先我们回顾转置的定义。

定义 4.4.1. 设 $A=\left(a_{i j}\right)$ 是一个 $m \times n$ 矩阵转置矩阵 ${ }^{t} A$ 是一个 $n \times m$ 矩阵,其 $(i, j)$ 元素是 $a_{j i}$。例如,如果 $A$ 是一个方阵$n \times n$矩阵,那么 ${ }^{t} A$$A$ 沿着从左上到右下的对角线的反射。一般来说,${ }^{t} A$ 的列是 $A$ 的行,写成列向量,反之亦然。

命题 4.4.2. 对于所有 $A \in \mathbb{M}_{m, n}(\mathbb{R})$

(i) ${ }^{t}\left({ }^{t} A\right)=A$

(ii) 对于所有 $\mathbf{v} \in \mathbb{R}^{m}$$\mathbf{w} \in \mathbb{R}^{n}$

$$ \langle\mathbf{v}, A \mathbf{w}\rangle=\left\langle{ }^{t} A \mathbf{v}, \mathbf{w}\right\rangle $$

此外,${ }^{t} A$$\mathbb{M}_{n, m}(\mathbb{R})$ 中唯一的元素 $B$,使得对于所有 $\mathbf{v} \in \mathbb{R}^{m}$$\mathbf{w} \in \mathbb{R}^{n}$$\langle\mathbf{v}, A \mathbf{w}\rangle=\langle B \mathbf{v}, \mathbf{w}\rangle$

(iii) 如果 $A$ 是一个 $m \times n$ 矩阵$B$ 是一个 $n \times k$ 矩阵,那么

$$ { }^{t}(A B)={ }^{t} B^{t} A $$

(iv) 如果 $A$ 是一个具有逆矩阵 $A^{-1}$$n \times n$ 矩阵,那么 ${ }^{t}\left(A^{-1}\right)=\left({ }^{t} A\right)^{-1}$

证明. (i) 直接由定义得出。(ii) 对于所有标准基向量 $\mathbf{e}_{i} \in \mathbb{R}^{m}$$\mathbf{e}_{j} \in \mathbb{R}^{n}$

$$ \left\langle\mathbf{e}_{i}, A \mathbf{e}_{j}\right\rangle=a_{i j}=\left\langle{ }^{t} A \mathbf{e}_{i}, \mathbf{e}_{j}\right\rangle $$

(这里当然,第一个内积$\mathbb{R}^{m}$ 中的向量内积,第二个是 $\mathbb{R}^{n}$ 中的向量内积。)利用双线性,可以得出对于所有 $\mathbf{v} \in \mathbb{R}^{m}$$\mathbf{w} \in \mathbb{R}^{n}$$\langle\mathbf{v}, A \mathbf{w}\rangle=\left\langle{ }^{t} A \mathbf{v}, \mathbf{w}\right\rangle$,通过将 $\mathbf{v}$$\mathbf{w}$ 展开为标准基向量线性组合。要看 (ii) 中的第二个陈述,如果 $B$ 也满足 $\langle\mathbf{v}, A \mathbf{w}\rangle=\langle B \mathbf{v}, \mathbf{w}\rangle$,那么

$$ \left.\left\langle\left(B-{ }^{t} A\right) \mathbf{v}, \mathbf{w}\right\rangle=\langle B \mathbf{v}, \mathbf{w}\rangle-\left\langle{ }^{t} A \mathbf{v}, \mathbf{w}\right\rangle=\langle\mathbf{v}, A \mathbf{w}\rangle-\mathbf{v}, A \mathbf{w}\right\rangle=0 $$

因此,对于所有 $\mathbf{v} \in \mathbb{R}^{m}$ 和所有 $\mathbf{w} \in \mathbb{R}^{n}$$\left(B-{ }^{t} A\right) \mathbf{v}$$\mathbf{w}$ 正交,因此是零向量 $\mathbf{0} \in \mathbb{R}^{n}$。因此对于所有 $\mathbf{v} \in \mathbb{R}^{m}$ 都有 $B \mathbf{v}={ }^{t} A \mathbf{v}$,所以 $B={ }^{t} A$

要看 (iii),对于所有 $\mathbf{v} \in \mathbb{R}^{m}$$\mathbf{w} \in \mathbb{R}^{k}$,我们有

$$ \langle\mathbf{v}, A B \mathbf{w}\rangle=\left\langle{ }^{t} A \mathbf{v}, B \mathbf{w}\right\rangle=\left\langle{ }^{t} B^{t} A \mathbf{v}, \mathbf{w}\right\rangle $$

因此,根据 (ii) 中的唯一性陈述,${ }^{t}(A B)={ }^{t} B^{t} A$

最后,要看 (iv),如果 $A A^{-1}=I_{n}$,那么

$$ I_{n}={ }^{t} I_{n}={ }^{t}\left(A A^{-1}\right)={ }^{t}\left(A^{-1}\right)^{t} A $$

因此 ${ }^{t}\left(A^{-1}\right)$${ }^{t} A$左逆,也因此是右逆,所以 ${ }^{t}\left(A^{-1}\right)=\left({ }^{t} A\right)^{-1}$

我们还有(无证明):

命题 4.4.3. 对于所有 $A \in \mathbb{M}_{n}(\mathbb{R})$$\det { }^{t} A=\det A$

📖 [逐步解释]

这部分内容回顾了矩阵转置 (transpose) 的定义和性质。转置矩阵的一个基本运算,它在内积正交性的研究中扮演着核心角色。

  1. 定义 4.4.1:转置矩阵
    • 操作: 矩阵 $A$转置,记作 ${}^tA$ (或更常见的 $A^T$),是通过交换原矩阵的行和列得到的。
    • 元素关系: 如果 $B = {}^tA$,那么 $B$$(i,j)$ 元素 $b_{ij}$ 就是 $A$$(j,i)$ 元素 $a_{ji}$
    • 几何图像: 对于方阵转置相当于沿着主对角线(左上到右下)做一次“镜面反射”。
    • 行列关系: 转置矩阵 ${}^tA$ 的行就是原矩阵 $A$ 的列,反之亦然。
  2. 命题 4.4.2:转置的性质
    • (i) 对合性: ${}^t({}^tA) = A$。对一个矩阵连续做两次转置,会回到它自身。
    • (ii) 与内积的关系 (核心性质)
    • 公式: $\langle \mathbf{v}, A\mathbf{w} \rangle = \langle {}^tA\mathbf{v}, \mathbf{w} \rangle$
    • 解释: 这个公式是转置矩阵最深刻的性质,它描述了矩阵如何在其内积的左右两个“槽”之间移动。当一个矩阵 $A$内积的右边移动到左边时,它必须变成它的转置 ${}^tA$
    • 唯一性: ${}^tA$ 是唯一满足这个性质的矩阵。这个性质可以作为转置(或更抽象的“伴随”)的定义。
    • 证明思路: 首先在标准基上验证该等式成立,然后利用内积双线性性质将其推广到任意向量。唯一性的证明则利用了内积非退化性
    • (iii) 乘积的转置:
    • 公式: ${}^t(AB) = {}^tB {}^tA$
    • 解释: 乘积的转置等于转置的“反序”乘积。这与逆矩阵的性质 $(AB)^{-1} = B^{-1}A^{-1}$ 非常相似。
    • 证明思路: 利用性质(ii)进行一个优雅的证明。通过展示对于任意向量$\langle \mathbf{v}, (AB)\mathbf{w} \rangle$ 都等于 $\langle ({}^tB{}^tA)\mathbf{v}, \mathbf{w} \rangle$,再根据性质(ii)的唯一性结论,直接得出 ${}^t(AB) = {}^tB{}^tA$
    • (iv) 逆的转置:
    • 公式: ${}^t(A^{-1}) = ({}^tA)^{-1}$
    • 解释: 对一个可逆矩阵,先求转置,与先转置再求,结果是一样的。转置和求这两个操作的顺序可以交换。
    • 证明思路: 从 $A A^{-1} = I$ 出发,两边同时转置,利用乘积转置的性质和单位矩阵转置是其自身来完成。
  3. 命题 4.4.3:转置与行列式
    • 公式: $\det({}^tA) = \det A$
    • 解释: 一个矩阵和它的转置矩阵具有完全相同的行列式
    • 意义: 这个性质说明,行列式既可以被看作是关于“列向量”的函数,也可以被同等地看作是关于“行向量”的函数。所有基于列的行列式性质(如交换两列变号),对于行也同样成立。
∑ [公式拆解]

公式1:

$$ \langle\mathbf{v}, A \mathbf{w}\rangle=\left\langle{ }^{t} A \mathbf{v}, \mathbf{w}\right\rangle $$

  • 这是转置矩阵的“伴随”定义,是其最重要的性质。它描述了线性算子 $A$ 和它的伴随算子 ${}^tA$内积下的关系。

公式2:

$$ \left\langle\mathbf{e}_{i}, A \mathbf{e}_{j}\right\rangle=a_{i j}=\left\langle{ }^{t} A \mathbf{e}_{i}, \mathbf{e}_{j}\right\rangle $$

  • 这是证明性质(ii)的核心步骤。
  • 左边:$\langle \mathbf{e}_i, A\mathbf{e}_j \rangle = \langle \mathbf{e}_i, \text{A的第j列} \rangle$。这个内积会精确地抽出第j列向量的第i个分量,也就是 $a_{ij}$
  • 右边:$\langle {}^tA\mathbf{e}_i, \mathbf{e}_j \rangle = \langle \text{tA的第i列}, \mathbf{e}_j \rangle$${}^tA$的第i列就是 $A$ 的第i行 $(a_{i1}, \ldots, a_{in})$。这个向量$\mathbf{e}_j$内积,会抽出它的第j个分量,也就是 $a_{ij}$
  • 两边都等于 $a_{ij}$,所以在标准基上该等式成立。

公式3:

$$ { }^{t}(A B)={ }^{t} B^{t} A $$

  • 乘积的转置等于转置的反序乘积。
💡 [数值示例]

$A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}, B = \begin{pmatrix} 0 \\ 1 \end{pmatrix}$

$A$$2 \times 2$, $B$$2 \times 1$$AB$$2 \times 1$

${}^tA = \begin{pmatrix} 1 & 3 \\ 2 & 4 \end{pmatrix}, {}^tB = \begin{pmatrix} 0 & 1 \end{pmatrix}$

示例 1:乘积的转置

  • $AB = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix} \begin{pmatrix} 0 \\ 1 \end{pmatrix} = \begin{pmatrix} 2 \\ 4 \end{pmatrix}$
  • ${}^t(AB) = \begin{pmatrix} 2 & 4 \end{pmatrix}$
  • ${}^tB {}^tA = \begin{pmatrix} 0 & 1 \end{pmatrix} \begin{pmatrix} 1 & 3 \\ 2 & 4 \end{pmatrix} = \begin{pmatrix} 0\cdot1+1\cdot2 & 0\cdot3+1\cdot4 \end{pmatrix} = \begin{pmatrix} 2 & 4 \end{pmatrix}$
  • 两者相等。

示例 2:与内积的关系

$\mathbf{v}=(1,1), \mathbf{w}=(1,0)$

$A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}, {}^tA = \begin{pmatrix} 1 & 3 \\ 2 & 4 \end{pmatrix}$

  • $A\mathbf{w} = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix} \begin{pmatrix} 1 \\ 0 \end{pmatrix} = \begin{pmatrix} 1 \\ 3 \end{pmatrix}$
  • $\langle \mathbf{v}, A\mathbf{w} \rangle = \langle (1,1), (1,3) \rangle = 1\cdot1 + 1\cdot3 = 4$
  • ${}^tA\mathbf{v} = \begin{pmatrix} 1 & 3 \\ 2 & 4 \end{pmatrix} \begin{pmatrix} 1 \\ 1 \end{pmatrix} = \begin{pmatrix} 4 \\ 6 \end{pmatrix}$
  • $\langle {}^tA\mathbf{v}, \mathbf{w} \rangle = \langle (4,6), (1,0) \rangle = 4\cdot1 + 6\cdot0 = 4$
  • 两者相等。

示例 3:行列式

$A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}, \det A = 4 - 6 = -2$

${}^tA = \begin{pmatrix} 1 & 3 \\ 2 & 4 \end{pmatrix}, \det({}^tA) = 4 - 6 = -2$

两者相等。

⚠️ [易错点]
  1. 转置的反序规则${}^t(AB) = {}^tB {}^tA$ 同样是初学者易错点,和的性质一样,需要特别记忆。
  2. 对称矩阵:如果一个方阵 $A$ 满足 $A = {}^tA$,则称它为对称矩阵。这类矩阵有非常好的性质(例如,实对称矩阵一定可以对角化)。
  3. 向量的转置:将列向量 $\mathbf{v}$ 转置得到行向量 ${}^t\mathbf{v}$。利用这一点,两个向量内积可以用矩阵乘法来写:$\langle \mathbf{v}, \mathbf{w} \rangle = {}^t\mathbf{v} \mathbf{w}$ (一个 $1 \times n$ 矩阵乘以一个 $n \times 1$ 矩阵,结果是一个 $1 \times 1$ 矩阵,即标量)。
📝 [总结]

本段详细介绍了矩阵转置的定义及其核心性质。转置操作即交换矩阵的行和列。其最重要的代数性质是在内积中的“伴随”行为 ($\langle \mathbf{v}, A\mathbf{w} \rangle = \langle {}^tA\mathbf{v}, \mathbf{w} \rangle$),以及乘积的转置等于转置的反序乘积。此外,转置不改变方阵行列式,且与求操作可交换。

🎯 [存在目的]

转置线性代数中一个看似简单但极其深刻的工具。引入它的目的在于:

  1. 定义正交矩阵转置是定义下一节正交矩阵 ($A^{-1} = {}^tA$) 的基础。没有转置,就无法定义正交矩阵
  2. 连接内积与矩阵乘法:如上所述,$\langle \mathbf{v}, \mathbf{w} \rangle = {}^t\mathbf{v} \mathbf{w}$。这使得我们可以用统一的矩阵语言来表达内积。例如,向量长度平方就是 ${}^t\mathbf{v}\mathbf{v}$
  3. 定义对称性和二次型转置是定义对称矩阵 ($A={}^tA$) 的前提。对称矩阵二次型 (${}^t\mathbf{x}A\mathbf{x}$) 紧密相关,后者在优化、物理和几何中有重要应用。
  4. 连接列空间与行空间转置操作建立了矩阵列空间行空间之间的对偶关系,这是线性代数基本定理的核心内容。
🧠 [直觉心智模型]
  1. 转置是“视角”的转换
  2. 矩阵 $A$:一个“人-物”关系表,行是人,列是物品,$a_{ij}$ 代表人 $i$ 拥有物品 $j$ 的数量。
  3. 转置矩阵 ${}^tA$:一个“物-人”关系表,行是物品,列是人,${}^ta_{ji}$ 代表物品 $j$ 被人 $i$ 拥有的数量。
  4. 转置操作就是从“以人为中心”的视角切换到“以物为中心”的视角。
💭 [直观想象]
  1. 转置是“输入/输出”角色的互换
  2. 内积 $\langle \mathbf{v}, A\mathbf{w} \rangle$ 中,可以看作是“输入” $\mathbf{w}$ 经过变换 $A$ 得到 $A\mathbf{w}$,然后与一个“探测器” $\mathbf{v}$ 作用得到结果。
  3. 性质 $\langle \mathbf{v}, A\mathbf{w} \rangle = \langle {}^tA\mathbf{v}, \mathbf{w} \rangle$ 表明,这等价于让“探测器” $\mathbf{v}$ 先经过一个“反向”的变换 ${}^tA$,变成一个新的探测器 ${}^tA\mathbf{v}$,然后直接与原始的“输入” $\mathbf{w}$ 作用。
  4. 转置矩阵 ${}^tA$ 描述了当矩阵 $A$ 的输入和输出角色在内积这个“舞台”上互换时,所需要进行的相应变换。
25.2. 正交矩阵的定义与性质

📜 [原文25]

正交矩阵是具有非常特殊几何性质的可逆矩阵

定义 4.4.4. 线性函数 $A: \mathbb{R}^{n} \rightarrow \mathbb{R}^{n}$等距变换,如果对于所有 $\mathbf{v} \in \mathbb{R}^{n}$$\|A \mathbf{v}\|=\|\mathbf{v}\|$。换句话说,$A$ 保持长度不变。

命题 4.4.5. 给定 $A \in \mathbb{M}_{n}(\mathbb{R})$,以下关于 $A$ 的条件是等价的。

(i) $A$等距变换,即对于所有 $\mathbf{v} \in \mathbb{R}^{n}$$\|A \mathbf{v}\|=\|\mathbf{v}\|$

(ii) 对于所有 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$$\langle A \mathbf{v}, A \mathbf{w}\rangle=\langle\mathbf{v}, \mathbf{w}\rangle$。换句话说,$A$ 保持内积不变。

(iii) $A$ 的列是 $\mathbb{R}^{n}$标准正交基

(iv) $A$可逆的,且 ${ }^{t} A=A^{-1}$

(v) $A$ 的行是 $\mathbb{R}^{n}$标准正交基

📖 [逐步解释]

这部分内容定义了正交矩阵,并给出了五个描述其特性的等价条件。正交矩阵代表了欧几里得空间中最重要的一类变换——刚体运动(旋转和反射)。

  1. 定义 4.4.4:等距变换 (Isometry)
    • 正交矩阵的几何本质被首先提出:它是一种等距变换
    • 等距变换的定义是:一个线性变换,它不改变任何向量长度范数)。
    • $\|A\mathbf{v}\| = \|\mathbf{v}\|$ 对所有 $\mathbf{v}$ 都成立。
    • 直观上,这种变换是“刚性”的,它不会拉伸或压缩空间中的任何东西。
  2. 命题 4.4.5:正交矩阵的等价条件
    • 这个命题是本节的核心,它从五个不同的角度刻画了同一类矩阵。如果一个方阵满足其中任何一个条件,它就自动满足所有其他四个。
    • (i) 保持长度 (Isometry):这是几何定义,即变换不改变向量长度
    • (ii) 保持内积: 变换不改变任意两个向量之间的内积
    • 意义: 既然内积可以用来定义长度 ($\|\mathbf{v}\|^2=\langle\mathbf{v},\mathbf{v}\rangle$) 和角度 ($\cos\theta \propto \langle\mathbf{v},\mathbf{w}\rangle$),那么“保持内积”是一个比“保持长度”更强的条件。它不仅意味着保持长度,还意味着保持任意两个向量之间的夹角。这种变换是真正的刚体运动
    • (iii) 列是标准正交基: 矩阵的所有列向量构成一个标准正交基
    • 意义: 这从矩阵自身的结构来描述。它意味着变换将标准基 $\{\mathbf{e}_i\}$ 映射到了一个新的标准正交基 $\{\text{A的列}_i\}$ 上。它将一个标准的直角坐标系变成了另一个标准的直角坐标系(可能旋转了)。
    • (iv) 逆等于转置: 矩阵 $A$逆矩阵恰好就是它的转置矩阵
    • 公式: $A^{-1} = {}^tA$,或者等价地 ${}^tA A = I$
    • 意义: 这是一个纯粹的代数条件,但它极其强大和方便。通常计算逆矩阵是一个非常繁琐的过程,但对于正交矩阵,我们只需要做一个简单的转置操作即可。这个性质在计算上极为优越。
    • (v) 行是标准正交基: 矩阵的所有行向量也构成一个标准正交基
    • 意义: 这说明对于正交矩阵,行和列具有同等优美的性质。

[证明思路的概要]

原文在下一段给出了详细证明,这里先概述其逻辑链条:

  • (i) $\implies$ (ii):从“保长度”推出“保内积”。这需要用到一个叫做“极化恒等式”的技巧,即用长度来表示内积
  • (ii) $\implies$ (i):从“保内积”推出“保长度”。这个方向很简单,在内积公式中令 $\mathbf{w}=\mathbf{v}$ 即可。
  • (ii) $\implies$ (iii):从“保内积”推出“列是标准正交基”。只需将标准基向量 $\mathbf{e}_i, \mathbf{e}_j$ 代入 $\langle A\mathbf{v}, A\mathbf{w} \rangle = \langle \mathbf{v}, \mathbf{w} \rangle$ 即可。
  • (iii) $\iff$ (iv):从“列是标准正交基”推出“${}^tAA=I$”。这个等价关系非常直接,因为 ${}^tAA$$(i,j)$ 元素恰好就是 $A$ 的第 $i$ 列和第 $j$ 列的内积
  • (iv) $\iff$ (v):与上一步类似,考虑 $A{}^tA$ 即可证明行向量的性质。
  • (iv) $\implies$ (ii):从“${}^tA=A^{-1}$”推出“保内积”。这是一个简单的代数计算:$\langle A\mathbf{v}, A\mathbf{w} \rangle = \langle \mathbf{v}, {}^tA A \mathbf{w} \rangle = \langle \mathbf{v}, I \mathbf{w} \rangle = \langle \mathbf{v}, \mathbf{w} \rangle$

通过这些步骤,可以证明所有五个条件都是等价的。

💡 [数值示例]
  • 示例 1:旋转矩阵

$A = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}$

  • (i) 保长度: 几何上显然,旋转不改变长度
  • (iii) 列是标准正交基:

第1列:$(\cos\theta, \sin\theta)$,长度为 $\sqrt{\cos^2\theta+\sin^2\theta}=1$

第2列:$(-\sin\theta, \cos\theta)$,长度为 $\sqrt{(-\sin\theta)^2+\cos^2\theta}=1$

列的内积: $\cos\theta(-\sin\theta) + \sin\theta\cos\theta = 0$

所以列构成一个标准正交基

  • (iv) 逆等于转置:

${}^tA = \begin{pmatrix} \cos\theta & \sin\theta \\ -\sin\theta & \cos\theta \end{pmatrix}$

$A^{-1} = \frac{1}{\cos^2\theta+\sin^2\theta} \begin{pmatrix} \cos\theta & \sin\theta \\ -\sin\theta & \cos\theta \end{pmatrix} = {}^tA$

所有条件都满足。

  • 示例 2:反射矩阵

$B = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}$ (关于x轴的反射)。

  • (i) 保长度: 几何上显然,镜面反射不改变长度
  • (iii) 列是标准正交基: 列是 $(1,0)$$(0,-1)$,它们是标准正交的。
  • (iv) 逆等于转置:

${}^tB = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix} = B$。这是一个对称矩阵

$B^{-1} = \frac{1}{-1} \begin{pmatrix} -1 & 0 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix} = B$

所以 $B^{-1} = {}^tB$

所有条件都满足。

⚠️ [易错点]
  1. 正交矩阵必须是方阵:这些等价条件只对方阵成立。一个长方矩阵的列可以是标准正交的(例如从 $\mathbb{R}^2 \to \mathbb{R}^3$ 的嵌入),但它没有逆矩阵,所以不能称之为正交矩阵
  2. 实数域:这里的定义和性质都基于实向量空间。在复向量空间中,对应的概念是“酉矩阵 (Unitary Matrix)”,其条件是 $A^{-1} = A^\dagger$ (逆等于共轭转置)。
  3. 命名混淆:“正交矩阵”这个名字有点误导性。它的定义要求比“正交”更多,还要求“标准化”(单位长度)。一个更准确的名字可能是“标准正交矩阵”,但“正交矩阵”已经是约定俗成的标准术语了。
📝 [总结]

本段定义了正交矩阵,并阐述了它的五个等价刻画方式。一个正交矩阵代表的线性变换是“刚性”的,它保持了空间中所有向量长度和所有向量间的夹角。从代数上看,它的逆矩阵就是它的转置矩阵,这使得求逆运算变得异常简单。从结构上看,它的所有列向量(或所有行向量)本身就构成一个标准正交基。这些优美的性质使得正交矩阵在理论和应用中都占据着核心地位。

🎯 [存在目的]

引入正交矩阵的目的在于:

  1. 刻画刚体运动:在几何学和物理学中,旋转和反射是最基本的对称操作。正交矩阵为这些操作提供了代数表示。
  2. 寻找“好”的坐标系正交矩阵是进行“坐标系旋转”的工具。在许多问题中,原始的坐标系可能不是最优的,通过一个正交变换(即乘以一个正交矩阵),我们可以将问题转换到一个新的、更简单的坐标系下(例如,将二次型化为标准型,或将对称矩阵对角化),而不用担心改变空间的内在几何结构。
  3. 简化计算:由于 $A^{-1}={}^tA$,涉及到逆矩阵的复杂计算在正交矩阵这里都变成了简单的转置操作,这在数值计算中是巨大的优势。
  4. 定义重要的矩阵群正交矩阵构成了另一个重要的矩阵群——正交群 $O_n$,这是研究欧几里得空间对称性的核心。
🧠 [直觉心智模型]
  1. 一个完美的“刚体”变换器
  2. 正交矩阵 $A$ 是一个机器,你把任何一个由刚性材料(比如钢筋)做成的物体(向量或由向量构成的图形)放进去。
  3. 机器会对这个物体进行整体的旋转或翻转。
  4. 出来的物体,其形状和尺寸与进去时一模一样,没有任何拉伸、压缩或扭曲。所有的长度、角度、面积、体积都保持不变。
💭 [直观想象]
  1. 用相机拍照
  2. 假设你有一个相机,它的感光元件(CCD)是一个标准的正方形网格(代表一个标准正交基)。
  3. 正交变换就像是你移动和旋转你的相机。
  4. 你倾斜相机(旋转),你看到的现实世界(输入空间)在照片(输出空间)上的投影会跟着旋转,但一个正方形的物体在照片上仍然是一个同样大小的正方形,只是歪了而已。物体的内在几何(长度、角度)没有被扭曲。
  5. 非正交变换:就像是你用了哈哈镜或广角镜头。直线会变弯,正方形会变成梯形,物体的形状和尺寸被严重扭曲。
35.3. 正交矩阵的证明与群结构

📜 [原文26]

证明. (i) ⟹ (ii):这由恒等式得出:

$$ \|\mathbf{v}+\mathbf{w}\|^{2}=\langle\mathbf{v}+\mathbf{w}, \mathbf{v}+\mathbf{w}\rangle=\langle\mathbf{v}, \mathbf{v}\rangle+2\langle\mathbf{v}, \mathbf{w}\rangle+\langle\mathbf{w}, \mathbf{w}\rangle=\|\mathbf{v}\|^{2}+2\langle\mathbf{v}, \mathbf{w}\rangle+\|\mathbf{w}\|^{2} $$

这是内积双线性和对称性以及展开的推论。(将 $\mathbf{w}$ 替换为 $-\mathbf{w}$,这等价于 $\mathbb{R}^{2}$ 中的余弦定律。)换句话说,对于所有向量 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$

$$ 2\langle\mathbf{v}, \mathbf{w}\rangle=\|\mathbf{v}+\mathbf{w}\|^{2}-\|\mathbf{v}\|^{2}-\|\mathbf{w}\|^{2} $$

特别地将此应用于向量 $A \mathbf{v}, A \mathbf{w}$ 并使用 $A$等距变换的事实,得到

$$ \begin{aligned} 2\langle A \mathbf{v}, A \mathbf{w}\rangle & =\|A \mathbf{v}+A \mathbf{w}\|^{2}-\|A \mathbf{v}\|^{2}-\mid A \mathbf{w}\left\|^{2}=\right\| A(\mathbf{v}+\mathbf{w})\left\|^{2}-\right\| \mathbf{v}\left\|^{2}-\right\| \mathbf{w} \|^{2} \\ & =\|\mathbf{v}+\mathbf{w}\|^{2}-\|\mathbf{v}\|^{2}-\|\mathbf{w}\|^{2}=2\langle\mathbf{v}, \mathbf{w}\rangle \end{aligned} $$

因此,对于所有 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$$\langle A \mathbf{v}, A \mathbf{w}\rangle=\langle\mathbf{v}, \mathbf{w}\rangle$

(ii) ⟹ (i):如果对于所有 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$$\langle A \mathbf{v}, A \mathbf{w}\rangle=\langle\mathbf{v}, \mathbf{w}\rangle$,那么取 $\mathbf{v}=\mathbf{w}$,使得 $\|A \mathbf{v}\|^{2}=\langle A \mathbf{v}, A \mathbf{v}\rangle= \langle\mathbf{v}, \mathbf{v}\rangle=\|\mathbf{v}\|^{2}$

(ii) ⟹ (iii):$A$ 的列等于 $\mathbf{c}_{i}=A \mathbf{e}_{i}$。根据 (ii),$\left\langle\mathbf{c}_{i}, \mathbf{c}_{j}\right\rangle=\left\langle A \mathbf{e}_{i}, A \mathbf{e}_{\mathbf{j}}\right\rangle=\left\langle\mathbf{e}_{i}, \mathbf{e}_{j}\right\rangle$。因此 $\mathbf{c}_{1}, \ldots, \mathbf{c}_{n}$$\mathbb{R}^{n}$标准正交基

(iii) ⟺ (iv):转置交换 $A$ 的行和列。因此,${ }^{t} A A$$(i, j)$ 元素是内积 $\left\langle\mathbf{c}_{i}, \mathbf{c}_{j}\right\rangle$。因此 ${ }^{t} A A=I_{n} \Longleftrightarrow \left\langle\mathbf{c}_{i}, \mathbf{c}_{j}\right\rangle$ 如果 $i \neq j$ 则为 0,如果 $i=j$ 则为 1 $\Longleftrightarrow$ $A$ 的列是 $\mathbb{R}^{n}$标准正交基

(iv) ⟺ (v):与上述类似,使用 $A^{t} A$ 而不是 ${ }^{t} A A$

(iv) ⟹ (ii):如果 ${ }^{t} A=A^{-1}$,那么对于所有 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$

$$ \langle A \mathbf{v}, A \mathbf{w}\rangle=\left\langle{ }^{t} A A \mathbf{v}, \mathbf{w}\right\rangle=\left\langle A^{-1} A \mathbf{v}, \mathbf{w}\right\rangle=\langle\mathbf{v}, \mathbf{w}\rangle $$

因此 (ii) 成立。

我们看到命题中的五个陈述中的任何一个都蕴含其他任何一个,所以它们都是等价的。

定义 4.4.6. 满足上述任何(以及所有)等价性质的矩阵 $A \in \mathbb{M}_{n}(\mathbb{R})$ 称为正交矩阵。所有 $n \times n$ 正交矩阵的集合记作 $O_{n}$,即正交群行列式为 1 的所有正交矩阵的集合记作 $S O_{n}$,即特殊正交群

📖 [逐步解释]

这部分内容分为两块:第一块是命题 4.4.5 的详细证明,展示了五个等价条件之间如何相互推导;第二块则正式定义了正交矩阵正交群 $O_n$特殊正交群 $SO_n$

  1. 证明的详细步骤
    • (i) 保长度 $\implies$ (ii) 保内积:
    • 这个证明的核心是“极化恒等式” (Polarization Identity),即 $2\langle \mathbf{v}, \mathbf{w} \rangle = \|\mathbf{v}+\mathbf{w}\|^2 - \|\mathbf{v}\|^2 - \|\mathbf{w}\|^2$。这个恒等式说明,如果你知道如何计算任何向量长度,你就能自动知道如何计算任意两个向量内积
    • 证明过程就是将这个恒等式应用到变换后的向量 $A\mathbf{v}, A\mathbf{w}$ 上。
    • $2\langle A\mathbf{v}, A\mathbf{w} \rangle = \|A\mathbf{v}+A\mathbf{w}\|^2 - \|A\mathbf{v}\|^2 - \|A\mathbf{w}\|^2$
    • 利用 $A$线性 ($A\mathbf{v}+A\mathbf{w} = A(\mathbf{v}+\mathbf{w})$) 和保长度的性质 ($\|A\mathbf{x}\|=\|\mathbf{x}\|$),等式右边可以被替换为原始向量长度表达式。
    • 最终得到 $2\langle A\mathbf{v}, A\mathbf{w} \rangle = \|\mathbf{v}+\mathbf{w}\|^2 - \|\mathbf{v}\|^2 - \|\mathbf{w}\|^2 = 2\langle\mathbf{v},\mathbf{w}\rangle$。从而证明了保内积
    • (ii) 保内积 $\implies$ (i) 保长度:
    • 这个方向非常简单。在 $\langle A\mathbf{v}, A\mathbf{w} \rangle = \langle \mathbf{v}, \mathbf{w} \rangle$ 中,令 $\mathbf{w}=\mathbf{v}$,即可得到 $\langle A\mathbf{v}, A\mathbf{v} \rangle = \langle \mathbf{v}, \mathbf{v} \rangle$,即 $\|A\mathbf{v}\|^2 = \|\mathbf{v}\|^2$
    • (ii) 保内积 $\implies$ (iii) 列是标准正交基:
    • $A$ 的第 $i$$\mathbf{c}_i$ 就是 $A\mathbf{e}_i$
    • 我们计算任意两列的内积$\langle \mathbf{c}_i, \mathbf{c}_j \rangle = \langle A\mathbf{e}_i, A\mathbf{e}_j \rangle$
    • 根据保内积的性质,这等于 $\langle \mathbf{e}_i, \mathbf{e}_j \rangle$
    • 标准基向量本身就是标准正交的,$\langle \mathbf{e}_i, \mathbf{e}_j \rangle = \delta_{ij}$
    • 因此 $\langle \mathbf{c}_i, \mathbf{c}_j \rangle = \delta_{ij}$,这正是“$A$的列构成一个标准正交基”的定义。
    • (iii) 列是标准正交基 $\iff$ (iv) 逆等于转置:
    • 这一步是纯粹的矩阵计算。
    • 计算矩阵乘积 ${}^tAA$。其 $(i,j)$ 元素是 ${}^tA$ 的第 $i$ 行与 $A$ 的第 $j$ 列的内积
    • ${}^tA$ 的第 $i$ 行就是 $A$ 的第 $i$ 列的转置,即向量 $\mathbf{c}_i$
    • 所以 ${}^tAA$$(i,j)$ 元素就是 $\langle \mathbf{c}_i, \mathbf{c}_j \rangle$
    • 因此,等式 ${}^tAA = I_n$ 成立,当且仅当 $\langle \mathbf{c}_i, \mathbf{c}_j \rangle = \delta_{ij}$$I_n$$(i,j)$ 元素)。
    • 这恰好说明了“$A$的列是标准正交基”与“${}^tAA=I$”(即 ${}^tA$$A$左逆,对于方阵也即是)是等价的。
    • (iv) 逆等于转置 $\iff$ (v) 行是标准正交基:
    • 证明方法完全类似,只是这次我们考虑乘积 $A{}^tA$。其 $(i,j)$ 元素是 $A$ 的第 $i$ 行与 ${}^tA$ 的第 $j$ 列的内积${}^tA$ 的第 $j$ 列就是 $A$ 的第 $j$ 行。所以 $A{}^tA$$(i,j)$ 元素是 $A$ 的第 $i$ 行与第 $j$ 行的内积$A{}^tA = I_n$ 等价于 $A$ 的行构成标准正交基
    • (iv) 逆等于转置 $\implies$ (ii) 保内积:
    • 这是一个纯代数推导,利用了转置内积中的移动性质。
    • $\langle A\mathbf{v}, A\mathbf{w} \rangle = \langle \mathbf{v}, {}^tA(A\mathbf{w}) \rangle = \langle \mathbf{v}, ({}^tAA)\mathbf{w} \rangle$
    • 因为 ${}^tAA=I$,所以上式等于 $\langle \mathbf{v}, I\mathbf{w} \rangle = \langle \mathbf{v}, \mathbf{w} \rangle$
  2. 定义 4.4.6:正交群与特殊正交群
    • 正交矩阵 (Orthogonal Matrix):满足上述五个等价条件中任意一个的方阵,就被称为正交矩阵
    • 正交群 (Orthogonal Group) $O_n$:所有 $n \times n$ 正交矩阵的集合,在矩阵乘法下构成一个,称为正交群
    • 特殊正交群 (Special Orthogonal Group) $SO_n$:在正交群 $O_n$ 中,我们只挑选出那些行列式为1的矩阵,它们构成了 $O_n$ 的一个子群,称为特殊正交群
    • 几何上,$O_n$ 包含了所有的旋转反射。而 $SO_n$ 只包含旋转(即保持定向的刚体运动)。$SO_n$ 通常也被称为旋转群

[公式与符号逐项拆解和

推导(若本段含公式)]

公式1:

$$ \|\mathbf{v}+\mathbf{w}\|^{2}=\langle\mathbf{v}+\mathbf{w}, \mathbf{v}+\mathbf{w}\rangle=\langle\mathbf{v}, \mathbf{v}\rangle+2\langle\mathbf{v}, \mathbf{w}\rangle+\langle\mathbf{w}, \mathbf{w}\rangle=\|\mathbf{v}\|^{2}+2\langle\mathbf{v}, \mathbf{w}\rangle+\|\mathbf{w}\|^{2} $$

  • 这是对 $\|\mathbf{v}+\mathbf{w}\|^2$ 的展开,是证明 (i) $\implies$ (ii) 的基础。它利用了内积双线性(展开为四项)和对称性(将 $\langle\mathbf{v},\mathbf{w}\rangle$$\langle\mathbf{w},\mathbf{v}\rangle$ 合并为 $2\langle\mathbf{v},\mathbf{w}\rangle$)。

公式2:

$$ 2\langle\mathbf{v}, \mathbf{w}\rangle=\|\mathbf{v}+\mathbf{w}\|^{2}-\|\mathbf{v}\|^{2}-\|\mathbf{w}\|^{2} $$

  • 这被称为“极化恒等式”,它从公式1移项得到。它显示了内积可以完全由范数(长度)来定义。

公式3:

$$ \begin{aligned} 2\langle A \mathbf{v}, A \mathbf{w}\rangle & =\|A \mathbf{v}+A \mathbf{w}\|^{2}-\|A \mathbf{v}\|^{2}-\mid A \mathbf{w}\left\|^{2}=\right\| A(\mathbf{v}+\mathbf{w})\left\|^{2}-\right\| \mathbf{v}\left\|^{2}-\right\| \mathbf{w} \|^{2} \\ & =\|\mathbf{v}+\mathbf{w}\|^{2}-\|\mathbf{v}\|^{2}-\|\mathbf{w}\|^{2}=2\langle\mathbf{v}, \mathbf{w}\rangle \end{aligned} $$

  • 这是证明 (i) $\implies$ (ii) 的核心计算步骤,已在上面详细解释。

公式4:

$$ \langle A \mathbf{v}, A \mathbf{w}\rangle=\left\langle{ }^{t} A A \mathbf{v}, \mathbf{w}\right\rangle=\left\langle A^{-1} A \mathbf{v}, \mathbf{w}\right\rangle=\langle\mathbf{v}, \mathbf{w}\rangle $$

  • 这是证明 (iv) $\implies$ (ii) 的计算步骤。它优美地结合了转置的伴随性质和正交矩阵的代数定义 $A^{-1}={}^tA$
💡 [数值示例]

我们在上面已经通过旋转矩阵和反射矩阵的例子,验证了这些等价条件。这里不再重复。

⚠️ [易错点]
  1. 证明逻辑环:在证明多个命题等价时,我们不需要证明所有 $5 \times 4 = 20$ 个方向的蕴含关系。我们只需要形成一个逻辑闭环,例如 (i) $\implies$ (ii) $\implies$ (iii) $\implies$ (iv) $\implies$ (v) $\implies$ (i) (如果可以的话)。本文作者采用的是一个更星型的证明结构,展示了多个条件都可以推向其他条件。
  2. $O_n$$SO_n$ 的关系$SO_n$$O_n$ 的一个子群$O_n$ 中那些行列式为-1的矩阵(反射)不构成一个(例如,两个反射的乘积是一个旋转,行列式为1,不满足封闭性)。
📝 [总结]

本段通过严谨的数学证明,建立了描述正交矩阵的五个等价命题之间的逻辑关系。这些证明深刻地揭示了“保长度”这一几何直观是如何与“保内积”、“列是标准正交基”以及“逆等于转置”这些代数和结构性质紧密相连的。在此基础上,正式定义了所有正交矩阵构成的正交群 $O_n$,以及其中代表纯粹旋转的特殊正交群 $SO_n$

🎯 [存在目的]

本段的目的是为正交矩阵的定义提供坚实的理论基础,并将其置于群论的框架下。

  1. 展示数学的统一性:证明过程本身就是一次巡礼,展示了线性代数中几何概念(长度)、代数运算(内积转置)和结构概念()是如何和谐统一、相互推导的。
  2. 确立核心定义:虽然有五个等价条件,但在实际应用中,代数条件 $A^{-1}={}^tA$ (或 ${}^tAA=I$) 是最常用、最便捷的定义和检验方法。
  3. 引入重要的群$O_n$$SO_n$李群理论中的基本范例。它们在物理学的规范场论(如描述基本粒子的对称性)、机器人学(描述机器臂的姿态)、计算机图形学(三维旋转)等领域无处不在。
🧠 [直觉心智模型]
  1. 正交矩阵俱乐部
  2. 要加入这个“正交矩阵俱乐部” ($O_n$),你需要满足入会标准。
  3. 俱乐部有五种不同的方式来检验你是否合格,但结果都是一样的。
  4. 测试1(几何):让你拿着一根橡皮筋(向量)通过你的变换机器,看橡-皮筋的长度有没有变。
  5. 测试2(几何+):让你拿着两根成一定角度的棍子通过机器,看出来的棍子长度和夹角是不是都没变。
  6. 测试3(结构):把你机器的“内部构造图”(矩阵的列)拿出来看,看是不是一个标准的“直角坐标系”结构。
  7. 测试4(代数):看你的机器的“撤销”操作 ($A^{-1}$),是不是和你机器的“镜面”版本 (${}^tA$) 一模一样。
  8. 测试5(结构): 把你的“内部构造图”的行拿出来看,是不是也是一个“直角坐标系”结构。
  9. 特殊正交矩阵 $SO_n$ 是俱乐部里的一个“VIP室”,只允许那些“不把左右手搞反”的成员(行列式为1,纯旋转)进入。
💭 [直观想象]
  1. 制作一个完美的俄罗斯方块游戏
  2. 游戏中的每一个方块(由4个小方块组成)在下落时可以旋转。
  3. 描述“旋转90度”这个操作的矩阵,必须是一个正交矩阵,因为它必须保持方块的刚性,不能在旋转中把它压扁或拉长。
  4. 更具体地,它必须是 $SO_2$ 中的一个元素(如果只考虑2D平面),比如 $\begin{pmatrix}0 & -1 \\ 1 & 0\end{pmatrix}$(旋转90度)。
  5. 这个矩阵行列式为1,说明它是一个纯旋转。
  6. 如果允许方块“镜像翻转”,那么就需要用到 $O_2$行列式为-1的矩阵,比如 $\begin{pmatrix}1 & 0 \\ 0 & -1\end{pmatrix}$
  7. 正交群 $O_n$ 提供了所有可能的游戏对象“刚体变换”的数学描述。
45.4. 正交群的性质

📜 [原文27]

命题 4.4.7. (i) 如果 $A, B \in O_{n}$,则 $A B \in O_{n}$;如果 $A, B \in S O_{n}$,则 $A B \in S O_{n}$

(ii) $I_{n} \in S O_{n}$,因此 $I_{n} \in O_{n}$

(iii) 如果 $A \in O_{n}$,则 $A^{-1} \in O_{n}$;如果 $A \in S O_{n}$,则 $A^{-1} \in S O_{n}$

证明. 我们将基于命题 4.4.5 的性质 (iv) 给出证明。基于性质 (i) 给出证明也很容易。如果 $A, B \in O_{n}$,那么

$$ { }^{t}(A B)={ }^{t} B^{t} A=B^{-1} A^{-1}=(A B)^{-1} $$

因此 $A B \in O_{n}$,并且如果 $\operatorname{det} A=\operatorname{det} B=1$,那么 $\operatorname{det} A B=1$。由于 ${ }^{t} I_{n}=I_{n}=I_{n}^{-1}$$\operatorname{det} I_{n}=1$$I_{n} \in S O_{n}$,因此 $I_{n} \in O_{n}$。最后,根据命题 4.4.2(iv),${ }^{t}\left(A^{-1}\right)=\left({ }^{t} A\right)^{-1}$。如果 $A$正交的,

$$ { }^{t}\left(A^{-1}\right)=\left({ }^{t} A\right)^{-1}=\left(A^{-1}\right)^{-1} $$

由于 ${ }^{t}\left(A^{-1}\right)=\left(A^{-1}\right)^{-1}$,根据定义 $A^{-1} \in O_{n}$。如果 $\operatorname{det} A=1$,那么 $\operatorname{det} A^{-1}=1$

以下说明 $O_{n}$$S O_{n}$ 之间没有太大区别:

命题 4.4.8. 如果 $A \in O_{n}$,则 $\operatorname{det} A= \pm 1$

证明. 使用 ${ }^{t} A=A^{-1}$,我们看到

$$ \operatorname{det} A=\operatorname{det}^{t} A=\operatorname{det} A^{-1}=(\operatorname{det} A)^{-1} $$

因此 $(\operatorname{det} A)^{2}=1$,所以 $\operatorname{det} A= \pm 1$

我们有时将 $S O_{n}$ 视为 $\mathbb{R}^{n}$刚体运动集合(固定原点)。 $S O_{2}$$O_{2}$ 明确给出如下:

$$ S O_{2}=\left\{\left(\begin{array}{cc} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{array}\right): \theta \in \mathbb{R}\right\} $$

$$ O_{2}=\left\{\left(\begin{array}{cc} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{array}\right): \theta \in \mathbb{R}\right\} \cup\left\{\left(\begin{array}{cc} \cos \theta & \sin \theta \\ \sin \theta & -\cos \theta \end{array}\right): \theta \in \mathbb{R}\right\} $$

因此 $S O_{2}$$\mathbb{R}^{2}$ 绕原点的旋转集合。

📖 [逐步解释]

这部分内容验证了正交群 $O_n$特殊正交群 $SO_n$ 确实满足的公理,并进一步阐明了它们的性质和在二维平面上的具体形态。

  1. 命题 4.4.7:$O_n$$SO_n$ 的群结构
    • 这个命题与命题 4.3.4 (关于 $GL_n$) 和 4.3.7 (关于 $SL_n$) 的结构完全相同,它是在证明 $O_n$$SO_n$
    • (i) 封闭性:
    • $O_n$: 两个正交矩阵的乘积仍然是正交矩阵
    • 证明:利用了正交矩阵的代数定义 $A^{-1}={}^tA$。证明链条 ${}^t(AB) = {}^tB{}^tA = B^{-1}A^{-1} = (AB)^{-1}$ 显示了乘积 $AB$转置也等于它的,因此 $AB$ 也是正交的。
    • $SO_n$: 两个行列式为1的正交矩阵相乘,结果矩阵行列式也是 $1 \cdot 1 = 1$,所以仍在 $SO_n$ 中。
    • (ii) 单位元:
    • $I_n$转置是它自己,$I_n$也是它自己,所以 ${}^tI_n = I_n^{-1}$。且 $\det(I_n)=1$。因此 $I_n$ 属于 $SO_n$,自然也属于 $O_n$
    • (iii) 逆元:
    • $O_n$: 如果 $A$正交的,它的 $A^{-1}$ 也是正交的。
    • 证明:我们要检验 ${}^t(A^{-1})$ 是否等于 $(A^{-1})^{-1}$。我们知道 ${}^t(A^{-1}) = ({}^tA)^{-1}$。因为 $A$ 正交${}^tA=A^{-1}$。所以 $({}^tA)^{-1} = (A^{-1})^{-1}$。得证。
    • $SO_n$: 如果 $A \in SO_n$,则 $\det A=1$。那么 $\det(A^{-1}) = (\det A)^{-1} = 1^{-1} = 1$。所以 $A^{-1}$ 也属于 $SO_n$
  2. 命题 4.4.8:正交矩阵的行列式
    • 内容: 任何一个正交矩阵行列式的值只能是 1 或者 -1。
    • 证明:
    • ${}^tAA=I$ 开始,两边取行列式$\det({}^tAA) = \det I = 1$
    • $\det({}^tA)\det(A) = 1$
    • 因为转置不改变行列式 ($\det({}^tA)=\det A$),所以上式变为 $(\det A)(\det A) = 1$,即 $(\det A)^2 = 1$
    • 实数中,满足 $x^2=1$ 的解只有 $x=1$$x=-1$
    • 意义: 这个结论将所有正交矩阵 ($O_n$) 分为两大类:行列式为1的(代表旋转,属于 $SO_n$),和行列式为-1的(代表带反射的刚体运动)。$SO_n$ 大约占了 $O_n$ 的“一半”。
  3. $SO_2$$O_2$ 的具体形式
    • 作者给出了二维情况下这两个群的矩阵的具体参数化形式。
    • $SO_2$ (二维旋转群)
    • 它的所有元素都可以由一个单一参数 $\theta$ (旋转角) 来描述。
    • $SO_2 = \left\{ \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix} : \theta \in \mathbb{R} \right\}$
    • 这正是我们在命题 4.1.12 中看到的右手标准正交基对应的变换矩阵(如果原标准基)。它代表了将平面绕原点逆时针旋转 $\theta$ 角。
    • $O_2$ (二维正交群)
    • 它由两部分组成:
  4. 所有的旋转矩阵 (来自 $SO_2$)。
  5. 所有的反射矩阵。一个典型的反射是关于x轴的反射 $\begin{pmatrix}1&0\\0&-1\end{pmatrix}$。其他所有的反射,都可以看作是先做一个旋转,再做一次这个基本反射。
    • 一个旋转 $\theta$ 再关于x轴反射的矩阵$\begin{pmatrix}1&0\\0&-1\end{pmatrix}\begin{pmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{pmatrix} = \begin{pmatrix}\cos\theta&-\sin\theta\\-\sin\theta&-\cos\theta\end{pmatrix}$。这与原文给出的 $\begin{pmatrix}\cos\theta&\sin\theta\\\sin\theta&-\cos\theta\end{pmatrix}$ 形式不同,但可以证明它们描述的是同一个集合(通过角度的代换)。原文的形式对应于一个关于过原点、与x轴夹角为 $\theta/2$ 的直线的反射。
∑ [公式拆解]

公式1:

$$ { }^{t}(A B)={ }^{t} B^{t} A=B^{-1} A^{-1}=(A B)^{-1} $$

  • 这是证明 $O_n$ 封闭性的核心计算。它完美地串联起了转置的乘法法则、正交矩阵的定义和逆矩阵的乘法法则。

公式2:

$$ { }^{t}\left(A^{-1}\right)=\left({ }^{t} A\right)^{-1}=\left(A^{-1}\right)^{-1} $$

  • 这是证明 $O_n$ 对求逆封闭的核心计算。它利用了转置与求的可交换性,以及正交矩阵的定义。

公式3:

$$ \operatorname{det} A=\operatorname{det}^{t} A=\operatorname{det} A^{-1}=(\operatorname{det} A)^{-1} $$

  • 这是证明正交矩阵行列式$\pm 1$ 的核心计算。

公式4&5 (SO₂ 和 O₂ 的定义):

已在上面详细解释。它们是二维旋转反射的参数化形式。

💡 [数值示例]
  • $O_2$ 中的乘法:
  • $A = \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}$ (旋转90度, det=1)。
  • $B = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}$ (x轴反射, det=-1)。
  • $A, B \in O_2$
  • $AB = \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix} = \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}$
  • 这个结果矩阵 $AB$ 是关于直线 $y=x$ 的反射。它的行列式是-1。我们可以验证它也是正交的 (${}^t(AB) = AB = (AB)^{-1}$),所以它也在 $O_2$ 中。这验证了封闭性
  • 注意一个 $SO_2$ 元素和一个不在 $SO_2$ 中的 $O_2$ 元素相乘,结果不在 $SO_2$ 中。
⚠️ [易错点]
  1. $O_n$ 不是交换群矩阵乘法通常不满足交换律,对于正交矩阵也是如此。例如,在3D中,先绕x轴转90度再绕y轴转90度,与先绕y轴转90度再绕x轴转90度,结果是不同的。
  2. $SO_2$ 是交换群:一个特殊情况是,$SO_2$ (二维旋转群) 是一个交换群。旋转 $\theta_1$ 再旋转 $\theta_2$,与先旋转 $\theta_2$ 再旋转 $\theta_1$ 的结果是一样的(都是旋转 $\theta_1+\theta_2$)。这是因为角度的加法满足交换律。
  3. 刚体运动:严格来说,“刚体运动”还包括“平移”。这里讨论的 $O_n$ 只包含固定原点刚体运动。完整的刚体运动群(欧几里得群 $E(n)$)是 $O_n$ 和平移的组合(半直积)。
📝 [总结]

本段严谨地证明了所有 $n \times n$ 正交矩阵的集合 $O_n$特殊正交矩阵的集合 $SO_n$矩阵乘法下都构成了。一个关键的性质是,任何正交矩阵行列式值必须是+1或-1,这为区分纯旋转 ($SO_n$) 和带反射的变换提供了依据。最后,通过给出二维情况下 $SO_2$$O_2$ 的具体矩阵形式,为这些抽象的群提供了具体、直观的例子。

🎯 [存在目的]

本段的目的是完成对正交矩阵结构的研究,并将其与几何直观联系起来。

  1. 巩固群结构:通过证明,确立了 $O_n$$SO_n$ 在代数上的合法“”地位。
  2. 深化几何理解:通过行列式$\pm 1$ 的结论,将 $O_n$ 分解为保持定向 ($SO_n$) 和反转定向两部分,这加深了我们对正交变换几何效果的理解。
  3. 提供范例$SO_2$$O_2$ 是理解更复杂的(如 $SO_3$,三维旋转群)的入门阶梯。$SO_2$ 的简单性(由单一参数描述且可交换)使其成为一个特别好的玩具模型。
🧠 [直觉心智模型]
  1. 定向的比喻
  2. 你的左右手是一个“定向”的物体。
  3. $SO_n$ 中的变换(旋转)是刚性的,无论你怎么旋转你的右手,它仍然是右手。
  4. $O_n$ 中但不在 $SO_n$ 中的变换(带反射的),就像是把你的右手变成了它的“镜中像”——一只左手。它仍然保持了手的刚性结构(手指长度、角度不变),但“手性”或“定向”被反转了。
  5. 命题4.4.8 说的是,刚体变换只有这两种可能:要么保持手性,要么反转手性,不存在介于中间的“半手性”状态。
💭 [直观想象]
  1. 一个可以旋转和翻转的透明立方体
  2. 原点在立方体中心,坐标轴穿过各面中心。
  3. $O_3$ 是所有能让这个立方体回到原位(但可能换了面朝向)的刚性操作的集合。
  4. $SO_3$ 是其中只通过“旋转”就能实现的操作。例如,绕z轴转90度。
  5. 不在 $SO_3$ 中的操作,例如“中心反演”(将每个点 $(x,y,z)$ 变为 $(-x,-y,-z)$),这是一个反射操作,它的行列式是-1。你无法通过旋转一个真实的立方体来实现这个效果。

6. 习题

(原文的习题部分从1.1开始,这里为了保持逻辑连贯,将其放在最后)

16.1 习题 1.1

📜 [原文28]

练习 1.1. (i) 设 $X$ 为一个集合,设 $\Delta_{X}$$X \times X$ 中的对角线

$$ \Delta_{X}=\{(x, x): x \in X\} . $$

证明,如果 $X$ 至少有两个元素,那么不存在 $X$ 的子集 $A, B$ 使得 $\Delta_{X}=A \times B$

(ii) 设 $X$$Y$ 为两个集合。定义函数 $F: \mathcal{P}(X) \times \mathcal{P}(Y) \rightarrow \mathcal{P}(X \times Y)$$F(A, B)=A \times B$。是否 $F$单射?换句话说,如果 $A_{1} \times B_{1}=A_{2} \times B_{2}$,是否必然 $A_{1}=A_{2}$$B_{1}=B_{2}$?对于满射又如何?

📖 [逐步解释]

这道习题考察的是对笛卡尔积 ($A \times B$) 定义的深刻理解。

(i) 对角线不是笛卡尔积

  • 理解问题:
  • 对角线 $\Delta_X$ 是一个由所有形如 $(x,x)$ 的序对组成的集合。例如,如果 $X=\{1,2\}$,那么 $\Delta_X = \{(1,1), (2,2)\}$
  • 笛卡尔积 $A \times B$ 是一个由所有形如 $(a,b)$ 的序对组成的集合,其中 $a \in A, b \in B$。它的特点是“整齐的矩形结构”:$A$ 中的每个元素都要和 $B$ 中的每个元素配对。
  • 问题是:对角线这种“倾斜”的结构,能否被一个“矩形”结构 $A \times B$ 所表示?
  • 证明思路 (反证法):
  1. 假设可以: 假设存在 $X$ 的子集 $A, B$ 使得 $\Delta_X = A \times B$
  2. 利用条件: $X$ 至少有两个元素。设 $x_1, x_2 \in X$$x_1 \neq x_2$
  3. 分析对角线元素:
    • 因为 $(x_1, x_1) \in \Delta_X$,并且 $\Delta_X = A \times B$,所以 $(x_1, x_1)$ 必须属于 $A \times B$。根据笛卡尔积的定义,这意味着 $x_1 \in A$ 并且 $x_1 \in B$
    • 同理,因为 $(x_2, x_2) \in \Delta_X$,所以 $x_2 \in A$ 并且 $x_2 \in B$
  4. 导出矛盾:
    • 我们现在知道了 $A$ 至少包含 $\{x_1, x_2\}$,B 也至少包含 $\{x_1, x_2\}$
    • 那么,根据笛卡尔积的定义,$A \times B$ 必须包含所有可能的配对。特别地,它必须包含序对 $(x_1, x_2)$ (因为 $x_1 \in A, x_2 \in B$)。
    • 但是,我们的前提是 $\Delta_X = A \times B$。所以 $(x_1, x_2)$ 必须属于 $\Delta_X$
    • 根据对角线的定义,只有形如 $(x,x)$ 的元素才在 $\Delta_X$ 中。因为 $x_1 \neq x_2$,所以 $(x_1, x_2)$ 属于 $\Delta_X$
    • 这就产生了矛盾:$(x_1, x_2)$ 必须在 $A \times B$ 中,但又不能在 $\Delta_X$ 中。
  5. 结论: 最初的假设是错误的。因此,不存在这样的子集 $A, B$

(ii) 笛卡尔积作为函数

  • 理解问题:
  • 这里定义了一个函数 $F$,它的输入是两个幂集的元素(即两个子集 $A \subseteq X, B \subseteq Y$),输出是 $X \times Y$ 的一个子集(即笛卡尔积 $A \times B$)。
  • 单射性: 问的是这个函数是不是一对一的。即,不同的输入 $(A_1, B_1) \neq (A_2, B_2)$ 是否总能得到不同的输出 $A_1 \times B_1 \neq A_2 \times B_2$?或者反过来说,如果输出相同 $A_1 \times B_1 = A_2 \times B_2$,是否能保证输入也相同 $A_1=A_2, B_1=B_2$
  • 满射性: 问的是这个函数能否生成所有可能的输出。即,对于 $X \times Y$任意 一个子集 $S$,是否都能找到一对 $A, B$ 使得 $A \times B = S$
  • 解答:
  • 单射性: 是单射的(在非退化情况下)
  • 我们需要证明:如果 $A_1 \times B_1 = A_2 \times B_2$,则 $A_1=A_2$$B_1=B_2$
  • 证明思路:
  1. 有一个边界情况:如果 $A_1 \times B_1$ 是空集,那么意味着 $A_1$$B_1$ 是空集。同样 $A_2$$B_2$ 也是空集。在这种情况下,我们无法唯一确定是哪个为空。例如,$A_1=\{1\}, B_1=\emptyset$$A_2=\emptyset, B_2=\{2\}$ 都得到空集。所以严格来说,如果允许空集,就不是单射的。
  2. 我们假设 $A_1, B_1, A_2, B_2$ 都非空
  3. $A_1 \times B_1 = E$。那么 $A_1$ 就是 $E$ 中所有序对的第一个元素的集合 (投影到X轴),$B_1$ 是第二个元素的集合 (投影到Y轴)。
  4. $A_1 = \{ a : \exists b, (a,b) \in E \}$$B_1 = \{ b : \exists a, (a,b) \in E \}$
  5. 因为 $A_2 \times B_2 = E$,同样地,$A_2 = \{ a : \exists b, (a,b) \in E \}$$B_2 = \{ b : \exists a, (a,b) \in E \}$
  6. 因此,$A_1=A_2$$B_1=B_2$
  7. 所以,在所有参与的集合都非空的情况下,该函数是单射的。
    • 满射性: 不是满射的 (除非X或Y只有一个元素)
    • 我们在第一部分 (i) 已经找到了一个反例。
    • $X=\{1,2\}, Y=\{1,2\}$
    • 考虑 $X \times Y$ 的子集 $S = \Delta_X = \{(1,1), (2,2)\}$
    • 我们在 (i) 中已经证明,不存在 $A, B$ 使得 $A \times B = S$
    • 因此,我们找到了一个在“靶空间” $\mathcal{P}(X \times Y)$ 中,但没有“原像”的元素。
    • 所以函数 $F$ 不是满射的。
    • 根本原因笛卡尔积 $A \times B$ 具有一种“矩形”的结构,而 $X \times Y$ 的子集可以是任意形状的,不一定都是“矩形”。
26.2 习题 1.2

📜 [原文29]

练习 1.2. 直接使用函数的精确定义和一点逻辑,证明对于每个集合 $Y$,恰好有一个从 $\emptyset$$Y$函数 $f$$f$ 何时是单射满射?解释你的答案。

$X$ 为一个集合。证明从 $X$$\emptyset$函数要么不存在,要么恰好有一个,取决于 $X \neq \emptyset$ 还是 $X=\emptyset$

📖 [逐步解释]

这道题考察的是在涉及空集 $\emptyset$ 时,对函数定义的理解。

第一部分:从空集出发的函数

  • 函数的精确定义: 一个从 $X$$Y$函数 $f$$X \times Y$ 的一个子集(即一个关系),满足:对于 每一个 $x \in X$,都存在 唯一一个 $y \in Y$ 使得 $(x,y) \in f$
  • 证明存在唯一的函数 $f: \emptyset \to Y$:
  1. 根据定义,这个函数 $f$ 必须是 $\emptyset \times Y$ 的一个子集。
  2. $\emptyset \times Y$ 是什么?它是所有形如 $(x,y)$ 的序对的集合,其中 $x \in \emptyset$$y \in Y$。因为不存在任何 $x$ 属于空集,所以这个集合里没有任何元素。即 $\emptyset \times Y = \emptyset$
  3. 所以函数 $f$ 必须是空集 $\emptyset$ 的一个子集。
  4. 空集只有一个子集,那就是空集本身。所以,如果存在这样的函数,它必须是 $f = \emptyset$
  5. 现在我们检验 $f=\emptyset$ 是否满足函数的条件: “对于 每一个 $x \in \emptyset$,都存在 唯一一个 $y \in Y$ 使得 $(x,y) \in f$”。
  6. 这是一个“全称量词命题”,它的范围是空集。在逻辑学上,一个在空集范围内的全称量词命题是“空洞地为真 (vacuously true)”的。因为你无法在空集中找到一个 $x$ 来推翻这个命题(即找不到一个 $x$ 使得它没有唯一的 $y$ 与之对应),所以该命题被认为是成立的。
  7. 因此,$f=\emptyset$ 确实是一个从 $\emptyset$$Y$函数。并且因为它是唯一的可能性,所以恰好有一个这样的函数
  • 单射性:
  • 定义: 如果 $f(x_1)=f(x_2)$ 意味着 $x_1=x_2$
  • 分析: 这个定义也是一个全称量词命题,它要求对于定义域中的 所有 $x_1, x_2$ 都成立。因为定义域是空集,我们无法从中取出任何 $x_1, x_2$ 来检验。所以,这个条件也是“空洞地为真”。
  • 结论: 从空集出发的函数单射的。
  • 满射性:
  • 定义: 对于 每一个 $y \in Y$,都存在一个 $x \in \emptyset$ 使得 $f(x)=y$ (即 $(x,y) \in f$)。
  • 分析:
  • 如果 $Y$ 不是空集,设 $y_0 \in Y$满射性要求我们必须能找到一个 $x \in \emptyset$ 使得 $f(x)=y_0$。但空集中没有任何元素 $x$。所以这个条件无法满足。
  • 如果 $Y$空集,那么“对于每一个 $y \in \emptyset$...” 这个全称量词命题又是“空洞地为真”的。
  • 结论:
  • 如果 $Y \neq \emptyset$,该函数不是满射的。
  • 如果 $Y = \emptyset$,该函数满射的。

第二部分:到空集去的函数

  • 证明:
  1. 设有一个函数 $f: X \to \emptyset$。根据定义,对于 每一个 $x \in X$,都必须存在一个 $y \in \emptyset$ 使得 $(x,y) \in f$
  2. 情况一: $X \neq \emptyset$
    • 我们可以从 $X$ 中取出一个元素 $x_0$
    • 根据函数定义,必须存在一个 $y \in \emptyset$$x_0$ 对应。
    • 但是空集 $\emptyset$ 中没有任何元素 $y$
    • 这是一个直接的矛盾。因此,如果 $X$ 不是空集,就不可能存在这样的函数
  3. 情况二: $X = \emptyset$
    • 这个问题退化成了第一部分中 $Y=\emptyset$ 的情况。
    • 我们已经证明,从 $\emptyset$$\emptyset$ 恰好存在一个函数,即 $f=\emptyset$
  • 结论:
  • 如果 $X \neq \emptyset$,不存在从 $X$$\emptyset$函数
  • 如果 $X = \emptyset$,恰好存在一个从 $X$$\emptyset$函数
36.3 习题 1.3 - 1.8

(由于篇幅和保持与原文内容相关性的原因,仅对部分与已解释概念紧密相关的习题进行分析,其他习题思路类似)

7. 行间公式索引

  1. $$ \mu_{n}=\left\{\zeta \in \mathbb{C}: \zeta^{n}=1\right\} $$

解释: 定义 n 次单位根的集合 $\mu_n$ 为所有 n 次方等于 1 的复数。

  1. $$ \mu_{n}=\left\{\cos \left(\frac{2 k \pi}{n}\right)+i \sin \left(\frac{2 k \pi}{n}\right): 0 \leq k \leq n-1\right\} . $$

解释: 给出 n 次单位根的具体计算公式,它们是单位圆上 n 等分点的复数表示。

  1. $$ -1=i^{2}=\sqrt{-1} \sqrt{-1} \neq \sqrt{(-1)(-1)}=\sqrt{1}=1 $$

解释: 一个经典的反例,说明复数开方的运算法则 $\sqrt{a}\sqrt{b}=\sqrt{ab}$ 不能随意使用。

  1. $$ \operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}=\left\{t_{1} \mathbf{v}_{1}+\cdots+t_{k} \mathbf{v}_{k}: t_{i} \in \mathbb{R}\right\} $$

解释: 定义向量集 $\{\mathbf{v}_i\}$ 的张成空间为其所有可能的线性组合的集合。

  1. $$ \langle\mathbf{v}, \mathbf{w}\rangle=v_{1} w_{1}+\cdots+v_{n} w_{n}=\sum_{i=1}^{n} v_{i} w_{i} $$

解释: 定义两个向量的标准内积(点积)为对应分量乘积之和。

  1. $$ \begin{gathered} \langle\mathbf{v}, \mathbf{w}\rangle=\langle\mathbf{w}, \mathbf{v}\rangle . \\ \langle\mathbf{v}+\mathbf{w}, \mathbf{u}\rangle=\langle\mathbf{v}, \mathbf{u}\rangle+\langle\mathbf{w}, \mathbf{u}\rangle \text{ 且 }\langle\mathbf{u}, \mathbf{v}+\mathbf{w}\rangle=\langle\mathbf{u}, \mathbf{v}\rangle+\langle\mathbf{u}, \mathbf{w}\rangle ; \\ \langle t \mathbf{v}, \mathbf{w}\rangle=\langle\mathbf{v}, t \mathbf{w}\rangle=t\langle\mathbf{v}, \mathbf{w}\rangle ; \\ \langle\mathbf{v}, \mathbf{v}\rangle \geq 0 \text{ 且 }\langle\mathbf{v}, \mathbf{v}\rangle=0 \Longleftrightarrow \mathbf{v}=\mathbf{0} . \end{gathered} $$

解释: 概括了内积运算满足的四个核心性质:对称性、双线性、正定性。

  1. $$ \|\mathbf{v}\|=(\langle\mathbf{v}, \mathbf{v}\rangle)^{1 / 2} $$

解释: 定义向量的范数(长度)为该向量与自身内积的平方根。

  1. $$ \begin{aligned} \|t \mathbf{v}\| & =|t|\|\mathbf{v}\| \\ \|\mathbf{v}+\mathbf{w}\| & \leq\|\mathbf{v}\|+\|\mathbf{w}\| \text{ (**三角不等式**)。} \end{aligned} $$

解释: 给出范数(长度)满足的两个基本性质:与标量乘法的关系和三角不等式。

  1. $$ \left\langle\mathbf{u}_{i}, \mathbf{u}_{j}\right\rangle= \begin{cases}0, & \text { 如果 } i \neq j \\ 1, & \text { 如果 } i=j\end{cases} $$

解释: 定义标准正交向量组的条件,即任意两个不同向量相互正交(内积为0),任意向量与自身的内积为1(长度为1)。

  1. $$ \mathbf{u}_{1}=(\cos \theta, \sin \theta), \quad \mathbf{u}_{2}=(-\sin \theta, \cos \theta) $$

解释: 给出了 $\mathbb{R}^2$ 中右手系标准正交基的一般形式。

  1. $$ \mathbf{u}_{1}=(\cos \theta, \sin \theta), \quad \mathbf{u}_{2}=(\sin \theta,-\cos \theta) $$

解释: 给出了 $\mathbb{R}^2$ 中左手系标准正交基的一般形式。

  1. $$ \operatorname{span}\left\{\mathbf{u}_{1}, \ldots, \mathbf{u}_{i}\right\}=\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{i}\right\} $$

解释: 描述了 Gram-Schmidt 正交化过程保持的核心性质,即每一步生成的标准正交向量所张成的空间与原始向量所张成的空间相同。

  1. $$ A=\left(\begin{array}{cccc} a_{11} & a_{12} & \ldots & a_{1 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m 1} & a_{m 2} & \ldots & a_{m n} \end{array}\right) $$

解释: 给出 $m \times n$ 矩阵的一般表示形式。在后面的不同语境中,同样的公式代表了线性变换的矩阵、线性方程组的系数矩阵等。

  1. $$ A=\left(\begin{array}{c} \mathbf{r}_{1} \\ \vdots \\ \mathbf{r}_{m} \end{array}\right) \text{ 且 } B=\left(\mathbf{c}_{1}, \cdots, \mathbf{c}_{k}\right) $$

解释: 一种将矩阵分块为行向量或列向量的象征性写法,用于直观解释矩阵乘法。

  1. $$ I_{n}=\left(\mathbf{e}_{1}, \ldots, \mathbf{e}_{n}\right)=\left(\begin{array}{c} \mathbf{e}_{1} \\ \vdots \\ \mathbf{e}_{n} \end{array}\right) $$

解释: 用标准基向量来表示单位矩阵 $I_n$

  1. $$ A \cdot \mathbf{e}_{i}=\sum_{j=1}^{m} a_{j i} \mathbf{e}_{j} $$

解释: 描述了矩阵 A 作用于标准基向量 $\mathbf{e}_i$ 的结果,即 A 的第 i 列向量用目标空间的标准基展开。

  1. $$ \begin{aligned} F\left(\mathbf{e}_{i}\right) & =\sum_{j=1}^{n} b_{j i} \mathbf{e}_{j} \\ G\left(\mathbf{e}_{j}\right) & =\sum_{k=1}^{m} a_{k j} \mathbf{e}_{k} \end{aligned} $$

解释: 在证明函数复合与矩阵乘法关系时,写出两个线性变换 F 和 G 对应的矩阵 B 和 A 的定义。

  1. $$ \begin{aligned} (G \circ F)\left(\mathbf{e}_{i}\right) & =\sum_{j=1}^{n} b_{j i} G\left(\mathbf{e}_{j}\right)=\sum_{k=1}^{m} a_{k j}\left(\sum_{j=1}^{n} b_{j i} \mathbf{e}_{k}\right) \\ & =\sum_{k=1}^{m}\left(\sum_{j=1}^{n} a_{k j} b_{j i}\right) \mathbf{e}_{k} \end{aligned} $$

解释: 证明函数复合与矩阵乘法关系的核心推导步骤。

  1. (线性方程组的表示)

解释: 该公式展示了一个线性方程组,并说明它可以被简洁地写为矩阵形式 $A\mathbf{x}=\mathbf{b}$

  1. $$ A A^{-1}=A^{-1} A=I_{n} $$

解释: 定义了逆矩阵 $A^{-1}$ 的性质,即它与原矩阵 A 的乘积(无论左右)都等于单位矩阵。

  1. $$ B=B I_{n}=B(A C)=(B A) C=I_{n} C=C $$

解释: 证明对于方阵,左逆等于右逆的经典代数推导。

  1. $$ \operatorname{det}\left(A^{-1}\right)=(\operatorname{det} A)^{-1} $$

解释: 逆矩阵的行列式是原矩阵行列式的倒数。

  1. $$ \operatorname{det} A=a d-b c $$

解释: $2 \times 2$ 矩阵的行列式计算公式。

  1. $$ A^{-1}=\frac{1}{a d-b c}\left(\begin{array}{cc} d & -b \\ -c & a \end{array}\right) $$

解释: $2 \times 2$ 可逆矩阵的逆矩阵计算公式。

  1. $$ S L_{n}(\mathbb{R})=\left\{A \in \mathbb{M}_{n}(\mathbb{R}): \operatorname{det} A=1\right\} $$

解释: 定义特殊线性群 $SL_n(\mathbb{R})$ 为所有行列式等于 1 的 n 阶实数方阵的集合。

  1. $$ \langle\mathbf{v}, A \mathbf{w}\rangle=\left\langle{ }^{t} A \mathbf{v}, \mathbf{w}\right\rangle $$

解释: 描述了转置矩阵 ${}^tA$ 的核心性质,即它是在内积中将算子 A 从右边移动到左边的形式。

  1. $$ \left\langle\mathbf{e}_{i}, A \mathbf{e}_{j}\right\rangle=a_{i j}=\left\langle{ }^{t} A \mathbf{e}_{i}, \mathbf{e}_{j}\right\rangle $$

解释: 证明上述转置核心性质时,在标准基上验证等式成立的关键一步。

  1. $$ { }^{t}(A B)={ }^{t} B^{t} A $$

解释: 矩阵乘积的转置等于各矩阵转置后的反序乘积。

  1. $$ I_{n}={ }^{t} I_{n}={ }^{t}\left(A A^{-1}\right)={ }^{t}\left(A^{-1}\right)^{t} A $$

解释: 证明逆的转置等于转置的逆 ${}^t(A^{-1}) = ({}^tA)^{-1}$ 时的推导步骤。

  1. $$ \|\mathbf{v}+\mathbf{w}\|^{2}=\langle\mathbf{v}+\mathbf{w}, \mathbf{v}+\mathbf{w}\rangle=\langle\mathbf{v}, \mathbf{v}\rangle+2\langle\mathbf{v}, \mathbf{w}\rangle+\langle\mathbf{w}, \mathbf{w}\rangle=\|\mathbf{v}\|^{2}+2\langle\mathbf{v}, \mathbf{w}\rangle+\|\mathbf{w}\|^{2} $$

解释: 范数平方的展开式,是推导极化恒等式和证明保长度与保内积等价的基础。

  1. $$ 2\langle\mathbf{v}, \mathbf{w}\rangle=\|\mathbf{v}+\mathbf{w}\|^{2}-\|\mathbf{v}\|^{2}-\|\mathbf{w}\|^{2} $$

解释: 极化恒等式,用范数来表示内积。

  1. (证明保长度 $\implies$ 保内积的推导)

解释: 将极化恒等式应用于变换后的向量,并利用变换的保长度性质,证明其同样保持内积。

  1. $$ \langle A \mathbf{v}, A \mathbf{w}\rangle=\left\langle{ }^{t} A A \mathbf{v}, \mathbf{w}\right\rangle=\left\langle A^{-1} A \mathbf{v}, \mathbf{w}\right\rangle=\langle\mathbf{v}, \mathbf{w}\rangle $$

解释: 证明正交矩阵的代数定义 ($A^{-1}={}^tA$) 蕴含其几何性质(保内积)的推导过程。

  1. $$ { }^{t}(A B)={ }^{t} B^{t} A=B^{-1} A^{-1}=(A B)^{-1} $$

解释: 证明正交群 $O_n$ 对矩阵乘法封闭的计算步骤。

  1. $$ { }^{t}\left(A^{-1}\right)=\left({ }^{t} A\right)^{-1}=\left(A^{-1}\right)^{-1} $$

解释: 证明正交群 $O_n$ 对求逆运算封闭的计算步骤。

  1. $$ \operatorname{det} A=\operatorname{det}^{t} A=\operatorname{det} A^{-1}=(\operatorname{det} A)^{-1} $$

解释: 证明正交矩阵的行列式必须为 $\pm 1$ 的推导步骤。

  1. $$ S O_{2}=\left\{\left(\begin{array}{cc} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{array}\right): \theta \in \mathbb{R}\right\} $$

解释: 给出了二维特殊正交群(旋转群)$SO_2$ 中矩阵的一般参数化形式。

  1. $$ O_{2}=\left\{\left(\begin{array}{cc} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{array}\right): \theta \in \mathbb{R}\right\} \cup\left\{\left(\begin{array}{cc} \cos \theta & \sin \theta \\ \sin \theta & -\cos \theta \end{array}\right): \theta \in \mathbb{R}\right\} $$

解释: 给出了二维正交群 $O_2$ 的完整描述,它由所有旋转矩阵和所有反射矩阵两部分组成。

  1. $$ \Delta_{X}=\{(x, x): x \in X\} . $$

解释: (习题) 定义集合 X 的笛卡尔积 $X \times X$ 中的对角线子集。

[[END_OF_RESPONSE]]所有解释内容已全部输出完毕。